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想 进 一 步 提升 Python 编程 水 平 ? 请 深入 分 析 真 实 应 用 
程序 中 使 用 的 大 量 相关 主题 


























v 
涵盖 了 正则 表达 式 、Internet/ 网 络 编程 、GUI、SQL/ 
数据 库 /ORM, 442. Web FÈ 





v 
了 解 当 前 的 开发 趋势 ， 比 如 Google+, Twitter, 
OAuth、MongoDB、Python 3 迁移 、Java/Jython 


v 
囊括 有 关 Django. Google App Engine. Microsoft 
Office #0 CSV/JSON/XML 的 全 新 内 容 


v 
包含 Python 2 和 Python 3 代码 ， 以 便 立 即 可 以 使 用 





v 
提供 了 代码 片段 、 互 动 案例 和 实用 练习 ， 旨 在 巩固 
Python 技能 
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本 书 是 经 典 畅销 图 书 《Python 核心 编程 (第 二 版 )》 的 全 新 升级 版 本 ， 总 共 分 为 3 部 分 。 

















第 1 部 分 讲解 了 Python 的 一 些 通 用 应 用 ， 包 括 正则 表达 式 、 网 络 编程 、Internet 客户 端 编程 、 
多 线程 编程 、GUI 编程 、 数 据 库 编程 、Microsoft Office 编程 、 扩 展 Python 等 内 容 。 第 2 部 分 
讲解 了 与 Web 开发 相关 的 主题 , 包括 Web 客户 端 和 服务 器 、CGI 和 WSGI 相关 的 Web 编程 、 
Diango Web 框架 、 云 计算 、 高 级 Web 服务 。 第 3 部 分 则 为 一 个 补充 /实验 章节 ， 包 括 文 本 处 
理 以 及 一 些 其 他 内 容 。 

本 书 适合 具有 一 定 经 验 的 Python 开发 人 员 阅 读 。 





































































































“本 书简 洁 而 不 失 其 技术 深度 ， 内 容 丰富 全 面 ， 历 史 资料 翔实 齐全 ， 这 让 本 书 成 为 学 习 




















Python 的 完美 教程 。 本 书 易 于 阅读 ， 以 极 简 的 文字 介绍 了 复杂 的 案例 ， 同 时 涵盖 了 其 他 同类 
图 书 中 很 少 涉及 的 历史 参考 资料 。 简 而 言 之 ， 本 书 棒 极 了 !” 














— Gloria. W 
N A, 一 上 《一 EX 
ARB ZBI AR AY ES 
“期 竺 已 久 的 Core Python Programming (第 2 版 ) 已 经 证 明了 本 书 确 实 值得 期 符 T 


RES) Fee, SPREE AAR OT DUEB ETE Python 并 付 之 于 实践 。” 
—— —Alex Martelli, Python in a Nutshell 作者 兼 Python Cookbook 编辑 















































“Wesley Chun 的 Core Python Programming 一 书 好 评 如 潮 , 而 且 它 也 证 明 它 配 得 上 所 有 的 
好 评 。 我 想 该 书 是 当前 学 习 Python 的 最 佳 图 书 。 在 市 面 上 众多 的 Python 图 书 中 , 我 觉得 Chun 
的 这 本 书 是 最 好 的 ， 因 此 强烈 推荐 本 书 。” 


















































David Mertz 博士 ，IBM DeveloperWorks 





“在 过 去 多 年 ， 我 一 直 在 从 事 Python 的 研究 ， 发 现 本 书 获 得 了 大 量 的 正面 评价 。 这 些 评 
价 证 实 了 这 样 一 个 观点 ， 即 Core Python Programming 被 认为 是 标准 的 Python 入 门 读物 。” 
Richard Ozaki，Lockheed Martin 公司 
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“终于 ， 一 本 既 可 以 作为 Python 教程 又 可 以 作为 Python 编程 语言 参考 的 图 书 问世 了 !” 


Michael Baxter, Linux Journal 




















“本 书写 作 相当 精良 。 这 是 我 遇 到 的 最 清晰 、 最 友好 的 Python 图 书 ， 它 在 一 个 广阔 的 背 
景 下 介绍 了 Python。 它 仔细 、 深 入 地 痢 析 了 一 些 重要 的 Python 主题 ,而 且 读 者 无 需 大 量 的 相 
关 经 验 也 能 看 懂 。 与 其 他 所 有 Python AXR RAHA. EPRA EART 
来 折磨 读者 ， 而 是 始终 立足 于 帮助 读者 牢固 掌握 Python 的 语法 和 结构 。” 
http://python.org bookstore Web site 
“如 果 我 只 能 有 一 本 Python 图 书 ， 那 它 肯 定 是 Wesley Chun 著作 的 Core Python 
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Programming。 本 书 成 功 地 涵盖 了 Python 的 多 个 主题 ， 其 详细 程度 远 其 于 Learning Python 一 


我 强烈 推荐 本 书 。 你 不 仅 会 爱 上 本 书 ， 而 且 会 爱 上 本 书 中 包含 的 真知 灼 见 。 重 要 的 是 ， 你 将 


学 会 Python。 更 更 重要 的 是 ， 你 会 发 现 本 书 会 在 你 每 日 的 Python 编程 生活 中 提供 








书 ， 而 且 涵盖 的 主题 也 远 非 Python 核心 语言 这 么 简单 。 如 果 你 只 打算 购买 一 本 Python 图 书 ， 
















































































写 得 不 错 ，Chun 先生 !” 












































各 种 帮助 。 




















Ron Stephens, Python 学 习 基 金 会 


“我 认为 编程 初学 者 的 最 佳 语 言 是 Python， 这 毋庸 置疑 ! 我 最 喜欢 的 图 书 是 Core Python 
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Programming 。 
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s003apr. MP3Car.com 论坛 


我 个 人 而 言 ， 我 相当 喜欢 Python。 它 易于 学 习 、 非 常 直观 、 相 当 灵 活 ， 而 且 执行 速 


度 也 相当 快 。 在 Windows 领域 中 ，Python 虽然 只 是 刚 颖 露头 角 ， 但 是 由 于 越 来 越 多 的 人 发 现 
了 它 ， 因 此 选择 从 Python 起 步 可 以 获得 大 量 的 支持 。 要 学 习 Python， 我 选择 从 Wesley Chun 
的 这 本 Core Python Programming 起 步 。” 
Bill Boswell，MCSE， 微 软 认 证 专家 在 线 杂 志 
“如 果 你 通过 图 书 来 学 习 编 程 ， 我 推荐 Core Python Programming， 它 是 目前 为 止 我 发 现 
的 最 佳 Python 图 书 。 我 也 是 一 个 Python 新 手 ， 但 是 在 3 个 月 之 后 ， 我 就 可 以 在 项 目 中 实现 
Python 7 CE zi MSOffice、SQL DB 等 )。” 


























ptonman, Dev Shed 论坛 


“Python 是 一 种 美丽 的 语言 。 它 易于 学 习 、 跨 平台 ， 而 且 能 够 良好 运行 。 它 已 经 实现 了 
Java 一 直 想 要 实现 的 很 多 技术 目标 。 对 Python 的 一 句 话 描述 是 “所 有 其 他 语言 随 着 时 间 发 生 


演进 ， 但 Python 是 设计 出 来 的 。 而且 Python 设计 得 相当 不 错 。 虽 然 现在 市 面 


Python 


“如 果 你 喜欢 Prentice Hall 出 版 社 的 Core 系列 图 书 ， 你 需要 考虑 的 男 一 本 写作 精良 的 图 
PÆ Core Python Programming 。 它 将 其 他 Python 
巨细 的 剖析 。” 

































































上 有 大 量 的 














图 书 ， 但 是 目前 为 止 我 遇 到 的 最 好 的 一 本 是 Core Python Programming.” 


一 一 Chris Timmons, C. R. Timmons Consulting 公司 


























图 书 中 很 少 涵盖 的 许多 实用 主题 进行 了 事 无 


一 一 Mitchell L. Model, MLM Consulting 公司 


Wesley Chun 在 高 中 阶段 开始 进入 计算 领域 ， 当 时 他 使 用 的 是 BASIC 和 6502 汇编 语 
言 ， 系 统 是 Commodore。 随 后 开始 在 Apple Me 上 使 用 Pascal 语言 ， 然 后 是 在 穿孔 卡片 上 使 
] ForTran 语言 。 正 是 在 穿孔 卡片 上 使 用 ForTran 的 经 历 使 他 成 为 一 名 谨慎 小 心 的 开发 人 员 ， 
因为 将 一 组 卡片 发 送 到 学 校 的 主机 并 得 到 返回 结果 ， 往 往 需 要 一 周 的 往返 时 间 。 他 第 一 份 
有 酬劳 的 工作 是 作为 学 生 辅 导 员 为 四 年 级 、 五 年 级 和 六 年 级 的 学 生 及 其 父母 家 讲授 BASIC 
编程 课程 。 

高 中 毕业 后 ，Wesley 以 加 利 福 尼 亚 校 友 学 者 的 身份 进入 加 州 大 学 伯克利 分 校 。 他 主 修 应 
数学 (计算 机 科学 )， 辅 修 音乐 《上 古典 钢琴 )， 并 以 A 级 和 B 级 的 成 绩 毕 业 。 在 学 校 期 间 ， 
他 先后 使 用 Pascal. Logo 和 C 语言 编写 过 程序 。 他 还 参加 了 一 个 以 录像 带 培训 和 心理 咨询 为 
特色 的 辅导 课程 。 他 的 暑期 实习 项 目 包 括 以 第 4 代 编程 语言 编写 代码 , 并 编写 了 一 个 “Getting 
Started” 用 户 手册 。 几 年 过 后 ， 他 开始 在 加 州 大 学 圣 巴 拉 拉 分 校 继 续 学 习 ， 并 获得 了 计算 机 
科学 〈 分 布 式 系统 ) 的 硕士 学 位 。 在 此 期 间 ， 他 还 讲授 C 编程 课程 。 一 篇 以 其 硕士 论文 为 基 
础 的 论文 在 第 29 届 HICSS 大 会 上 被 提名 为 最 佳 论文 ， 其 随后 的 一 个 论文 版 本 刊登 在 新 加 坡 
大 学 Journal of High Performance Computing 上 。 
自从 毕业 之 后 ，Wesley 就 投身 于 软件 行业 ， 编 写 和 出 版 了 多 本 图 书 ， 并 且 发 表 了 数 百 篇 
会 议 报 告 和 教程 。 此 外 还 开发 了 针对 公共 企业 和 私有 企业 培训 的 Python. 课程 。Wesley 的 
Python 使 用 经 历 始 于 Python 1.4 版 本 (当时 Python 刚刚 起 步 )， 他 使 用 Python 设计 了 Yahoo! 
Mail 拼写 检查 程序 以 及 地 址 短 。 他 随后 成 为 Yahoo! People Search 部 门 的 首席 工程 师 。 在 离 
JF Yahoo! 之 后 ， 他 写作 了 本 书 第 1 版 ， 然 后 开始 周游 世界 。 回 来 之 后 ， 他 使 用 Python 编写 
过 许多 程序 ， 包 括 本 地 产品 搜索 程序 、 反 垃圾 邮件 和 防 病 毒 邮件 程序 、Facebook 游戏 /应 用 
以 及 许多 完全 不 同 的 其 他 东西 ， 比 如 医生 用 来 进行 疹 柱 骨折 分 析 的 软件 。 

在 闲暇 时 间 ，Wesley 喜欢 弹 钢 难 、 打 保龄球 、 打 篮球 、 骑 自行 车 、 玩 极限 飞盘 、 打 扑克 、 
旅行 , 以 及 与 家 人 共享 人 伦 。 他 还 是 Tutor 邮件 列表 和 PyCon 这 两 个 Python 用 户 组 的 志愿 者 。 
他 还 维护 着 艾 伦 帕 森 斯 怪物 项 目 目录 (Alan Parsons Project Monster Discography )。 在 本 书写 
作 之 时 ，Wesley 是 Google 的 开发 大 使 ， 为 其 云 产 品 背 书 。Wesley 生活 在 硅谷 ， 您 可 以 通过 
@wescpy 或 plus.ly/wescpy 找到 他 。 
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欢迎 各 位 读者 打开 本 书 


很 高 兴 各 位 读者 能 够 允许 我 们 来 帮助 你 们 尽 可 能 快 、 尽 可 能 深入 地 学 习 Python. Core 
Python 系列 图 书 的 目标 不 只 是 教会 开发 人 员 Python 语言 ， 我 们 还 希望 各 位 读者 能 够 形成 足 
够 的 知识 库 ， 从 而 能 够 开发 任何 应 用 领域 的 软件 。 

在 其 他 的 Core Python 系列 图 书 (Core Python Programming 和 Core Python Language 
Fundamentals), 我 们 不 仅 向 读者 讲授 Python 语言 的 语法 , 还 希望 读者 能 够 深入 掌握 Python 
的 运行 机 制 。 我 们 相信 ， 在 具备 了 这 些 知识 之 后 ， 无 论 你 是 Python 语言 的 初学 者 还 是 资深 程 
序 员 ， 都 能 够 开发 出 更 为 高 效 的 Python 应 用 程序 。 

在 学 完 任 何其 他 入 门类 的 Python 图 书 之 后 ， 你 可 能 觉得 已 经 掌握 了 Python 而 且 还 觉得 
学 得 不 错 ， 并 为 此 感到 自豪 。 通 过 完成 大 量 练习 之 后 ， 你 将 会 对 自己 新 掌握 的 Python 编程 技 
能 拥有 更 多 信心 。 但 是 ， 你 可 能 仍然 会 有 这 样 的 疑问 ,“ 现 在 该 怎么 办 ? 我 能 用 Python 编写 
哪 种 类 型 的 应 用 程序 呢 ? ”或 许 你 是 为 了 一 个 相当 小 众 的 工作 项 目 而 学 习 使 用 Python， 你 可 
能 会 考虑 “我 还 能 用 Python 写 点 其 他 的 吗 ? ” 














































































































































































































关于 本 书 


在 本 书 中 ， 你 将 会 用 到 从 其 他 地 方 学 习 到 的 所 有 Python 知识 ， 并 培养 新 的 技能 ， 从 而 构 
建 自己 的 工具 箱 。 借 助 于 该 工具 箱 ， 你 能 够 使 用 Python 开发 各 种 类 型 的 应 用 程序 。 关 于 高 级 
主题 的 章节 则 在 快速 概述 各 种 不 同 的 主题 。 如 果 你 开始 转向 这 些 章节 中 涵盖 的 特定 应 用 开发 
领域 ， 你 将 会 发 现 它 们 不 仅 给 出 了 正确 的 方向 ， 还 包含 了 更 多 的 信息 。 但 是 不 要 期 待 有 一 个 
深入 的 解决 方案 ， 因 为 这 有 悖 于 本 书 的 初衷 一 一 提供 更 为 广泛 的 解决 方案 。 

与 其 他 所 有 Core Python 图 书 一 样 , 本 书 同样 包含 了 许多 示例 , 你 可 以 在 计算 机 上 进行 尝试 。 
为 了 牢固 掌握 概念 ， 你 也 会 在 每 章 最 后 发 现 有 趣 、 有 挑战 性 的 练习 。 这 些 初 级 和 中 级 难度 的 练习 
则 在 测试 你 的 知识 掌握 情况 ， 提 升 你 的 Python 技能 。 毕 竞 ， 没 有 什么 可 以 替代 实践 经 验 。 我 们 
相信 ， 你 不 仅 能 够 学 到 很 多 Python 编程 技能 ， 同 时 还 能 在 尽 可 能 短 的 时 间 内 迅速 掌握 它们 。 












































































































































































































































2 前 言 


Ill 











对 我 们 来 讲 ， 扩 展 Python 技能 的 最 佳 方式 就 是 动手 练习 ， 因 此 你 会 发 现 这 些 练习 是 本 书 
的 一 个 最 大 优势 。 它 们 可 以 测试 你 对 每 章 主题 和 定义 的 掌握 情况 ， 并 激励 你 尽 可 能 多 地 动手 
编程 。 除 了 自己 编写 应 用 程序 之 外 ， 没 有 其 他 方法 可 以 更 有 效 地 提升 你 的 编程 技能 。 你 需要 
解决 初级 、 中 级 和 高 级 难度 的 编程 问题 。 而 且 你 应 该 需要 编写 一 个 大 型 的 应 用 程序 〈 这 也 是 
很 多 读者 想 要 在 本 书 中 看 到 的 )， 而 不 是 采用 一 些 脚 本 来 实现 。 坦 白 说 ， 你 可 能 做 得 没有 那么 
好 ， 但 是 通过 亲自 动手 实践 ， 你 的 收获 会 更 大 。 附 录 A 给 出 了 每 章 中 某 些 练习 的 答案 。 附 录 
B 包含 了 一 些 有 用 的 参考 表 。 

感谢 所 有 读者 的 反馈 和 鼓励 ， 你 们 是 我 写作 这 些 图 书 的 动力 。 希 望 你 们 能 继续 给 我 发 送 
反馈 信息 ， 并 促使 本 书 第 4 版 尽快 问世 ， 而 且 其 质量 优 于 之 前 所 有 版 本 。 


本 书 读者 对 象 


如 果 你 之 前 了 解 Python， 并 且 和 希望 进一步 了 解 Python， 同 时 希望 扩展 自己 的 应 用 程序 开 
发 技能 ， 你 就 是 本 书 的 读者 对 象 。 
在 众多 领域 中 都 可 见 Python 的 身影 ， 包 括 工 程 领域 、 信 息 技术 领域 、 科 学 领域 、 商 业 领 
域 和 娱乐 领域 等 。 这 意味 着 Python 用 户 〈 和 本 书 的 读者 ) 列表 包括 但 不 限于 下 述 人 员 : 
。 软件 工程 师 ; 
。 硬件 设计 /CAD 工程 师 ; 
© QA/ 测 斌 和 自动 化 框架 开发 人 员 ; 
。 IS/AT/ 系 统 和 网 络 管理 员 ; 
。 科学 家 和 数学 家 ; 
。 技术 或 项 目 管理 人 员 ; 
。 多 媒体 或 音频 /视觉 工程 师 ; 
。 SCM 或 发 布 工程 师 ; 
© Web 大 师 或 内 容 管理 人 员 ; 
© 客户 /技术 支持 工程 师 ; 
© 数据 库 工程 师 和 管理 员 ; 
。 研发 工程 师 ; 
。 软件 集成 和 专业 服务 人 员 ; 
。 大 学 及 中 学 教育 工作 者 ; 
。 Web 服务 工程 师 ; 
。 金融 软件 工程 师 ; 
。 其 他 人 员 。 
使 用 Python 的 一 些 著名 公司 包括 Google、Yahoo!、NASA、 卢 卡 斯 工业 光 魔 公司 、Red Hat, 
Zope. WHALE. Koes Ly. 
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作者 与 Python 


KA 10 多 年 以 前 ， 我 在 一 家 名 为 Fourll 的 公司 接触 到 Python。 当 时 ， 该 公司 有 一 个 主 
要 的 产品 一 一 Fourll.com White Page 目录 服务 。 它 们 使 用 Python 来 设计 该 产品 的 下 一 代 : 
Rocketmail Web E-mail 服务 ， 该 服务 最 终 演变 为 今天 的 Yahoo! Mail. 

学 习 Python 并 加 入 最 初 的 Yahoo! Mail 工程 团队 是 一 件 相 当 有 趣 的 事情 。 我 帮助 重新 设 
计 了 地 址 筹 和 拼写 检查 程序 。 在 当时 ，Python 也 成 为 其 他 Yahoo! 站 点 的 一 部 分 ， 其 中 包括 
People Search, Yellow Pages. Maps 和 Driving Directions 等 。 事实 上 , 我 当时 是 People Search 
部 门 的 首席 工程 师 。 

尽管 在 当时 Python 对 我 而 言 是 全 新 的 , 但 是 它 也 很 容易 学 习 比 我 过 去 学 习 的 其 他 语 
言 都 要 简单 。 在 当时 ，Python 教程 的 缺乏 迫使 我 使 用 Library Reference 和 Quick Reference 
Guide 作为 主要 的 学 习 工 具 ， 而 这 也 是 促使 我 写作 本 书 的 一 个 驱动 力 。 

从 我 在 Yahoo! 的 日 子 开始 ， 我 能 够 以 各 种 有 趣 的 方式 在 随后 的 工作 中 使 用 Python。 在 任 
何 情况 下 ， 我 都 能 使 用 Python 的 强大 功能 来 及 时 地 解决 遇 到 的 问题 。 我 也 开发 了 多 门 Python 
课程 ， 并 使 用 本 书 来 讲授 那些 课程 一 一 完全 使 用 自己 的 作品 。 

Core Python 图 书 不 仅 是 卓越 的 Python 学 习 资 料 , 它们 还 是 用 来 讲解 Python 的 最 佳 工具 。 
作为 一 名 工程 师 ， 我 知道 学 习 、 理 解 和 应 用 一 种 新 技术 所 需要 的 东西 。 作 为 一 名 专业 讲师 ， 
我 也 知道 为 客户 提供 最 有 效 的 会 话 〈session) 所 需要 的 是 什么 。 这 些 图 书 棚 棚 如 生 ， 同 时 包 
含 你 无 法 从 “纯粹 的 培训 师 ” 或 “纯粹 的 图 书 作 者 ”那里 获得 的 提示 。 
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对 本 书写 作风 格 的 期 待 : 以 讲解 技术 为 主 ， 同 时 容易 阅读 








不 同 于 严格 的 “入 门 ” 图 书 或 者 纯粹 的 “ 重 口 味 ” 计 算 机 科学 参考 图 书 ， 我 过 去 的 教学 
经 验 告诉 我 ， 一 本 易于 阅读 同时 又 面向 技术 的 图 书 应 该 服务 于 这 样 的 一 个 目的 ， 即 能 够 让 人 
尽 可 能 迅速 地 掌握 Python， 以 便 能 将 其 应 用 到 十 万 火 急 的 任务 上 来 。 我 们 在 介绍 概念 时 会 辅 
之 以 合适 的 案例 ， 以 加 速 学 习 过 程 。 每 章 最 后 都 会 给 出 大 量 练习 ， 则 在 夯实 你 对 书 中 概念 和 
理念 的 理解 。 
能 够 与 Bruce Eckel 的 写作 风格 相提并论 ， 我 很 激动 也 很 谦卑 〈 见 本 书 第 1 版 的 评论 ， 网 
址 为 http:Wcorepython.com)。 本 书 并 非 一 本 枯燥 的 大 学 教材 ， 我 们 的 目标 是 营造 一 个 与 你 交 
谈 的 环境 ， 就 像 你 是 在 参加 我 的 一 个 广 受 好 评 的 Python 培训 课程 一 样 。 作 为 一 名 终身 学 习 的 
学 生 ， 我 不 断 地 因材施教 ， 告 诉 你 需要 学 习 什 么 才能 快速 、 彻 底 地 掌握 Python 的 概念 。 你 也 
将 发 现 ， 可 以 快速 、 轻 松 地 阅读 本 书 ， 而 且 不 会 错失 任何 技术 细节 。 















































































































































作为 一 名 工程 师 ， 我 知道 应 该 怎样 做 才能 向 你 讲授 Python 中 的 概念 。 作 为 一 名 教师 ,我 
可 以 将 技术 细节 全 部 打 散 ， 然 后 转换 成 一 种 易于 理解 和 迅速 掌握 的 语言 。 你 将 从 我 的 写作 风 
格 和 教学 风格 中 获 益 ， 更 重要 的 是 ， 你 会 喜欢 上 用 Python 来 编程 。 
因此 ， 你 也 将 注意 到 ， 尽 管 我 是 本 书 唯一 的 作者 ， 但 是 我 使 用 的 是 “第 三 人 称 ” 的 写作 
风格 ， 也 就 是 说 ， 我 使 用 了 诸如 “我 们 ”这 样 的 一 些 废话 ， 原 因 是 在 学 习 本 书 的 过 程 中 ， 我 
们 是 一 起 的 ， 共 同 朝 着 扩展 Python 编程 技能 的 目标 而 努力 。 


关于 本 书 第 3 版 


在 本 书 第 1 版 刚 问世 时 ，Python 刚 发 布 了 2.0 版 本 。 从 那 时 起 ，Python 语言 发 生 了 重大 
的 改进 , Python 语言 被 越 来 越 多 的 人 接受 , 其 使 用 率 也 大 幅 提 升 。 Python 编程 语言 大 获 成 功 。 
Python 语言 的 缺陷 已 被 删除 ,而 且 有 新 的 特性 不 断 加 入 ,这 将 全 世界 Python 开发 人 员 的 能 
和 编程 修养 提升 到 了 一 个 新 的 水 平 。 本 书 第 2 版 于 2006 年 问世 ， 当 时 也 是 Python 的 易 盛 时 
期 ， 它 的 版 本 是 迄今 为 止 最 为 流行 的 2.5 版 本 。 

本 书 第 2 版 问世 之 后 好 评 如 潮 ， 其 销量 超过 了 第 1 版 。 在 那 期 间 ，Python 本 身 也 赢得 了 
无 数 荣 誉 ， 包 括 下 面 这 些 。 

e Tiobe (www.tiobe.com ) 

年 度 编程 语言 (2007 4E. 2010 年 ) 
e LinuxJournal (linuxjournal.com) 
一 一 最 喜欢 的 编程 语言 《2009 一 2011 年 ) 
一 一 最 喜欢 的 脚本 语言 〈《2006 一 2008 年 、2010 年 、2011 年 ) 
。 LinuxQuestions.org 会 员 选 择 奖 
年 度 编程 语言 (2007—2010 年 ) 

这 些 奖 项 和 荣誉 推动 着 Python 进一步 发 展 。 现在， Python 已 经 进入 了 下 一 代 : Python 3。 
同样 ， 本 书 也 在 向 着 其 “第 三 代 ” 前 进 。 我 非常 高 兴 Prentice Hall 能 够 让 我 写作 本 书 第 3 版 。 
由 于 Python 3.x 版 本 不 能 够 后 向 兼容 Python 1 和 Python 2， 因 此 还 需要 一 段 时 间 ，Python 3.x 
才能 被 业界 全 面 采 用 和 集成 进来 。 我 们 很 乐意 引导 你 经 历 这 个 过 渡 。 本 书 第 3 版 的 代码 也 适 
JF Python 2 和 Python 3《〈 视 情况 而 定 一 一 并 非 所 有 代码 都 移植 了 过 来 )。 在 移植 代码 时 ， 我 
门 还 会 讨论 各 种 工具 和 做 法 。 

Python 3.x 版 本 带 来 的 挑战 延续 着 对 Python 编程 语言 进行 迭代 和 改进 的 趋势 ， 要 移 除 
Python 语言 最 后 的 重大 缺陷 还 有 很 长 的 路 要 走 , 而 且 在 不 断 演变 的 Python 语言 中 移 除 重大 缺 
陷 也 是 一 个 相当 大 的 飞跃 。 与 之 相似 ， 本 书 的 结构 也 做 出 了 相当 重大 的 转变 。 限 于 篇 幅 和 范 
围 ， 已 出 版 的 第 2 版 无 法 处 理 第 3 版 中 引入 的 所 有 新 内 容 。 

Alt, Prentice Hall 和 我 想到 了 一 个 好 方法 来 癌 前 推进 本 书 , 即 从 逻辑 上 将 其 拆 分 为 两 部 
分 ， 其 中 一 部 分 讲述 Python 核心 语言 主题 ， 另 一 部 分 讲述 高 级 应 用 主题 ， 并 由 此 将 书 拆 分 为 
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BE 5 


Ill 








两 卷 。 而 你 手头 上 当前 拿 着 的 这 本 书 是 Core Python Programming (第 3 版 ) 的 第 二 部 分 。 好 
消息 是 由 于 第 二 部 分 的 内 容 已 经 相当 完整 齐备 ,因此 第 一 部 分 的 内 容 也 就 没有 存在 的 必要 了 。 
要 阅读 本 书 ， 我 们 建议 读者 能 够 拥有 Python 中 级 编程 经 验 。 如 果 你 最 近 已 经 学 过 Python， 而 
且 能 够 相当 轻松 地 驾驶 它 ,或 者 你 已 经 具备 Python 技能 ， 但 是 希望 能 进一步 提升 该 技能 ， 那 
么 你 算是 找 对 图 书 了 。 

Core Python Programming 的 读者 都 知道 , 我 的 主要 目标 是 以 一 种 全 面 的 方式 来 讲解 Python 
语言 的 本 质 ， 而 非 仅 仅 是 其 语法 (学 习 Python 的 语法 貌似 也 不 需要 一 本 书 )。 在 知道 了 Python 
的 工作 机 制 之 后 一 一 包括 数据 对 象 和 内 存 管 理 之 间 的 关系 一 一 你 将 成 为 一 名 更 高 效 的 Python 
程序 员 。 而 这 是 第 一 部 分 〈 即 Core Python Language Fundamentals) 要 做 的 工作 。 

与 本 书 所 有 版 本 一 样 ， 我 会 继续 更 新 图 书 的 Web 站 点 以 及 博客 ， 以 确保 无 论 你 移植 到 哪 
个 新 发 布 的 Python 版 本 ， 都 可 以 让 本 书 做 到 与 时 俱 进 。 

对 之 前 的 读者 来 说 ， 本 书 第 3 版 新 增 了 下 述 主题 : 

e 基于 Web 的 E-mail 示例 (第 3 Æ); 

。 使 用 Tile/Ttk (第 5 章 ); 

e 使 用 MongoDB ($8 6 章 ); 

e 更 重要 的 Outlook 和 PowerPoint 示例 〈 第 7 3&2; 

。 Web 服务 器 网 关 接 口 (WSGI) (第 10 $); 

e 使 用 Twitter (第 13 Æ); 

e 使 用 Google+ ($ 15 $). 

此 外 ,我们 还 在 当前 版 本 中 添加 了 全 新 的 3 章 ， 分 别 是 第 11 章 、 第 12 章 和 第 14 3E. X 
几 章 代表 着 经 常 使 用 Python 进行 应 用 开发 的 一 些 新 领域 或 正在 进行 的 领域 。 所 有 的 现 有 章节 
己 经 焕然 一 新 ， 并 更 新 到 Python 的 最 新 版 本 ， 同 时 还 包含 了 一 些 新 内 容 。 通 过 随后 的 “ 章 市 
指南 ”部 分 ， 你 可 以 了 解 到 本 书 每 部 分 要 讲解 的 内 容 。 


= aS 


本 书 分 为 3 部 分 。 其 中 第 1 部 分 占据 了 本 书 2/3 的 篇 幅 , 它 讲解 了 应 用 开发 工具 箱 中 ( 当 
JA, Python 是 关注 重点 )“ 核 心 ” 成 员 的 解决 方案 。 第 2 部 分 讲解 了 与 Web 编程 相关 的 各 种 
主题 。 第 3 部 分 是 补充 部 分 ， 它 提供 了 一 些 仍然 在 开发 过 程 中 的 实验 章节 ， 在 本 书后 续 版 本 
中 ， 这 些 章节 有 望 成 为 独立 的 章节 。 

本 书 提 供 了 一 些 高 级 主题 ， 以 展示 Python 可 以 用 来 开发 什么 应 用 程序 。 值 得 高 兴 的 是 ， 
本 书 起 码 可 以 向 你 提供 Python 开发 中 许多 关键 领域 的 入 门 知识 , 其 中 包括 之 前 版 本 中 提 到 的 
一 些 主题 。 


下 面 是 本 书 每 章 的 内 容 简介 。 






































































































































































































































































































































































































































































































































6 前 言 


Ill 


第 1 部 分 : 通用 应 用 主题 
第 1 章 一 正则 表达 式 















































正则 表达 式 是 一 种 功能 强大 的 工具 ， 它 可 以 用 来 进行 模式 匹配 、 提 取 、 查 找 和 替换 。 








第 2 章 一 一 网 络 编程 












































如 今 许多 应 用 都 是 面向 网 络 的 。 该 章 将 介绍 如 何 使 用 TCP/IP 5 UDP/IP 来 创建 客户 端 和 





服务 器 ， 以 及 如 何 快 速 入 门 SocketServer 和 Twisted. 
第 3 章 一 一 因特网 客户 端 编程 
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如 今 在 用 的 大 多 数 Internet 协议 都 是 使 用 套 接 字 开 发 的 。 该 章 将 探究 一 些 用 来 构建 




















Internet 协议 客户 端的 高 级 库 。 该 章 重点 讨论 的 是 FTP、Usenet 消息 协议 (NNTP) 以 及 各 种 





E-mail 协议 (SMTP. POP3 及 IMAP4). 
第 4 章 一 一 多 线程 编程 























多 线程 编程 是 一 种 通过 引入 并 发 来 提升 多 种 应 用 程序 执行 性 能 的 方式 。 该 章 通过 解释 概 
念 并 展示 正确 创建 Python 多 线程 应 用 程序 的 方法 、 什 么 是 最 佳 用 例 来 讲解 如 何在 Python 中 


















































实现 线程 。 
第 5 章 一 一 GUI 编程 















































Tkinter (在 Python 3 中 重 名 为 kinter) 以 Tk 图 形 工具 包 为 基础 , 是 Python 中 的 默认 GUI 


























开发 库 。 该 章 通 过 演示 如 何 创建 简单 的 GUI 应 用 来 介绍 Tkinter。 一 种 最 佳 的 学 习 方式 是 复制 ， 



























































并 在 某 些 应 用 的 顶层 进行 创建 , 这 样 可 以 很 快 上 手 。 该 章 最 后 简要 讨论 其 他 图 形 库 , 比如 Tix. 








Pmw、wxPython、PyGTK 和 Ttk/Tile. 
第 6 章 一 一 数据 库 编程 











Python 也 有 助 于 简化 数据 库 编 程 。 该 章 首先 回顾 一 些 基本 概念 , 然后 介绍 Python 数据 库 
让 用 编程 接口 CDB-API). 随后 介绍 如 何 使 用 Python 连接 到 关系 数据 库 , 并 执行 查询 和 操作 。 








































































































如 果 你 更 喜欢 使 用 结构 化 查询 语言 (SQL) 的 放手 管理 方法 Chands-off approach)， 而 且 只 是 









































想 在 无 须 考虑 底层 数据 库 层 的 情况 下 处 理 对 象 ， 则 可 以 使 用 对 象 -关系 映射 。 最 后 ， 该 章 以 











MongoDB 作为 NoSQL 示例 介绍 了 非 关 系数 据 库 。 
第 7 =——Microsoft Office 编程 








无 论 喜 欢 与 否 ， 我 们 都 生活 在 一 个 不 得 不 和 Microsoft Windows PC 打交道 的 世界 。 我 们 可 
! 情 况 下 ， 都 可 以 使 用 
Python 的 强大 功能 来 让 生活 更 轻松 一 些 。 该 章 将 探究 使 用 Python 来 编号 COM 客户 端 ， 以 控制 





























能 偶尔 与 它们 打交道 ， 也 可 能 每 天 都 要 接触 到 它们 ， 但 是 无 论处 于 哪 和 







































































Office 应 用 程序 (tkun Word. Excel. PowerPoint 和 Outlook) 并 与 它们 进行 通信 。 尽 管 该 章 在 





























本 书 之 前 版 本 中 是 实验 章节 ， 但 是 我 们 很 高 兴 能 够 为 其 添加 足够 的 内 容 ， 使 其 单独 成 章 。 


第 8 章 一 一 扩展 Python 
























































前 面 提 到 ， 能 够 重用 代码 并 对 语言 进行 扩展 将 具有 相当 强大 的 功能 。 





在 纯 Python 中 ， 这 





些 扩展 是 模块 和 包 ， 但 是 你 也 可 以 使 用 C/C++、C# 或 Java 来 开发 底层 的 代码 。 这 些 扩展 能 


以 无 颖 方式 与 Python 相 接 。 
为 源 代码 没有 必要 泄露 )。 该 章 计 


CE 
第 2 部 分 : 








该 章 将 扩展 第 2 章 讨 论 的 客户 前 
来 解析 Web 内 容 的 
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Web 开发 


第 9 38—— Web 客户 端 和 服务 器 
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| Python 来 定 





制 自己 





























的 Web 服务 器 。 








F 解 使 用 
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第 10 章 一 一 Web 编程 CGI 和 WSGI 


Web 服务 器 的 主要 工作 是 接受 客户 端的 请 求 ， 然 后 返 
客户 端的 请 求 数据 呢 ? 由 于 服务 器 只 擅长 返 
于 是 这 个 工作 需要 在 他 处 完成 。CGI 给 了 服务 器 4 
行 数据 处 理 〈 长 久 以 来 
使 用 。 但是， 无 论 使 月 




















逻辑 ， 
程序 来 
不 会 在 实践 












































章 的 篇 幅 来 学 习 CGI。 该 章 介 绍 WSGI 如 何 通 过 通 
助 。 此 外 ， 该 章 还 将 介绍 当 框 架 开 发 人 员 需 要 在 
放 在 另外 一 端 时 ，WSGI 如 何 提供 帮助 ， 以 便 应 用 



































直 也 是 这 人 么 
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况 下 编写 代码 。 
第 11 章 一 一 Web 框架 : Django 





Python 有 很 多 Web 1 
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云 计算 在 IT 业界 引发 J 
Yahoo! Mail 这 样 的 在 线 应 





如 何 编 写 简单 的 Web 应 月 





E42, Django 
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/服务 器 架构 ， 我 们 将 这 一 概念 应 | 
! Web 客户 端 工具 。 最 





的 是 什么 框架 ， 这 一 概念 仍然 适用 
| 编程 接口 来 为 应 用 开发 人 员 提 供 3 
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中 最 为 流行 的 





























回 结 




















展 的 整个 过 程 。 


果 。 但 是 月 


i 程 语言 来 编写 自己 的 扩展 可 以 提升 性 能 ， 并 增强 安全 
C 语言 来 开发 扩 
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[* 


到 Web 上 。 该 章 不 
后 ， 该 章 介绍 如 何 使 


及 务 器 如 何 获 得 
此 它们 通常 没有 获取 数据 的 能 力 或 
成 另外 一 个 程序 的 能 


， 让 这 个 





改 的 )， 但 是 该 程序 不 具备 扩展 性 ， 因 














此 并 





因此 我 们 将 用 一 





tk 








端 连接 Web 服务 器 而 
F 发 人 员 能 够 在 无 须 担 心 执行 平台 的 ; 
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个 。 该 章 介 绍 这 个 框架 ， 


程序 的 代 





id a 








1# 














然后 介 


昌 。 在 具备 了 这 些 知识 后 ， 你 可 以 自行 研究 其 他 Web 框架 。 
第 12 章 一 一 云 计算 : Google App Engine 





ZEE). RKE Amazon 的 AWS 


























j 等 在 当 

















今世 界 中 更 为 常见 ， 但 是 











成 为 这 些 服务 的 替代 者 。 这 些 平台 充分 利 

















更 多 的 灵活 


性 ， 原 
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是 你 可 以 自行 控制 应 











FH 








] 及 其 代码 。 该 
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有 很 多 平台 赁 




















这 样 的 基础 设施 服务 和 Gmail. 
其 强大 的 功能 ， 




















j 户 介入 ， 
使 用 



































而 且 要 比 云 软件 具有 
Python 的 第 一 个 平 











台 服务 一 一 Google App Egnine。 在 掌握 了 该 章 的 内 容 后 , 你 可 以 探讨 该 章 介绍 的 其 他 类 似 服务 。 


第 13 章 一 一 Web 服务 
Web 上 的 高 级 服务 (使 用 HTTP)。 该 章 先 介绍 一 个 较为 古老 
个 较 新 的 服务 (Twitter)。 该 章 讨 论 如 何 使 用 
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Finance)， 然 后 
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知识 来 与 这 些 服务 进行 交互 。 


补充 /实验 章节 


第 3 部 分 : 








第 14 章 一 一 文本 处 理 
这 是 本 书 的 第 一 个 补充 章节 ， 它 介绍 使 用 









































Python 来 处 理 文本 的 方法 。i 


的 服务 CYahoo! 
Python 以 及 前 面 学 到 的 

















8 前 言 


Ill 


























然后 是 JSON， 最 后 是 XML。 在 该 章 最 后 一 节 , 我 们 将 前 面 学 到 的 客户 端 /服务 器 知识 融合 到 












































XML 中 ， 以 查看 如 何 使 用 XML-RPC 来 创建 在 线 的 远程 过 程 调用 (RPC). 























第 15 章 一 一 其 他 内 容 








该 章 包含 一 些 附 加 材料 ， 这 些 内 容 可 能 会 在 本 书 下 一 版 中 成 为 单独 的 章节 。 该 章 讨论 的 


主题 包含 Java/Jython 和 Google+。 
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有 些 人 在 碰 到 问题 时 ， 就 想 : “我 知道 ， 我 可 以 使 用 正则 表达 式 .” 现 在 ， 他 们 就 有 了 两 
个 问题 。 
— Jamie “jwz” Zawinski, 1997 年 8 月 


本 章 内 容 : 

e 简介 / 动机; 

。 特殊 符号 和 字符 ; 

。 正则 表达 式 和 Python 语言 ; 
。 一 些 正则 表达 式 示例 ; 

。 更 长 的 正则 表达 式 示 例 。 








11 简介 /动机 


操作 文本 或 者 数据 可 是 件 大 事 








Ed 





$13 正则 表达 式 3 





。 如 果 不 相信 ， 就 仔细 看 看 当今 的 计算 机 都 在 做 些 什 么 工 









































E: 文字 处 理 、 网 页 表单 的 填写 、 来 自 数据 库 转 储 的 信息 流 、 股 票 报价 信息 、 新 闻 源 ， 而 且 



























































TAY. 











如 果 我 在 运营 一 个 电子 邮件 存档 公司 ， 而 作为 我 的 一 位 客户 ， 你 希望 查看 你 自己 在 去 年 











这 个 清单 还 会 不 断 增长 。 因 为 我 们 可 能 还 不 知道 需要 用 计算 机 编程 来 处 理 的 文本 或 数据 的 具 
体内 容 ， 所 以 能 将 这 些 文 本 或 者 数据 以 茶 种 可 被 计算 机 识别 和 处 理 的 模式 表达 出 来 是 非常 有 













































































































































































2 月 份 发 送 和 接收 的 所 有 电子 邮件 。 如 果 我 能 够 设计 一 个 计算 机 程序 来 收集 这 些 信息 ， 然 后 


























转发 给 你 ， 而 不 是 人 工 阅 读 你 的 由 





























b 件 然后 手动 处 理 你 的 请 求 ， 无 疑 要 好 很 多 。 因 为 如 果 有 人 
































看 了 你 的 邮件 ， 哪 怕 只 是 用 眼睛 瞄 了 一 下 邮件 的 时 间 戳 ， 你 可 能 都 会 对 此 感到 担心 〈 甚 至 慎 


怒 )。 又 比如 ， 你 可 能 会 认为 凡是 





带 有 “ILOVEYOU” 这 样 主题 的 邮件 都 是 已 感染 病毒 的 邮 























件 ， 并 要 求 从 你 的 个 人 邮箱 中 攻 
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机 具有 在 文本 中 检索 某 种 模式 的 能 力 。 








正则 表达 式 为 高 级 的 文本 模式 匹配 、 抽取、 与 /或 文本 形式 的 搜索 和 蔡 换 功能 提供 了 基础 。 














它们 。 这 就 引出 了 一 个 问题 ， 即 我 们 如 何 通 过 编程 使 计生 




































































简单 地 说 ， 正 则 表达 式 ( 简 称 为 regex) 是 一 些 由 字符 和 特殊 符号 组 成 的 字符 串 ， 它 们 描述 了 








模式 的 重复 或 者 表述 多 个 字符 ， 























于 是 正则 表达 式 能 按照 某 种 模式 匹配 一 系列 有 相似 特征 的 字 























符 串 〈 见 图 1-1)。 换 句 话 说， 它们 能 够 匹配 多 个 字符 串 …… 一 种 只 能 匹配 一 个 字符 串 的 正则 
表达 式 模 式 是 很 乏味 并 且 毫 无 作用 的 ， 不 是 吗 ? 

Python 通过 标准 库 中 的 re 模块 来 文 持 正 则 表达 式 。 本 节 将 做 一 个 简短 扼要 的 介绍 。 限 于 
篇 幅 ， 内 容 将 仅 涉 及 Python 编程 中 正则 表达 式 方 面 的 最 常见 内 容 。 当 然 ， 读 者 对 于 正则 表达 

































































式 方面 的 经 验 〈 熟 悉 程度 ) 肯定 不 








的 文档 。 你 将 再 次 会 对 字符 串 的 理 

















同 ， 我 们 强烈 建议 阅读 一 些 官方 帮助 文档 和 与 此 主题 相关 

















解 方式 有 所 改变 ! 


核心 提示 : 搜索 和 匹配 的 比较 

本 章 通 篇 会 使 用 搜索 和 匹配 两 个 术语 。 当 严格 讨论 与 字符 串 中 模式 相关 的 正则 表达 式 
时 ， 我 们 会 用 术语 “匹配 ”( matching )， 指 的 是 术语 “模式 匹配 ”( pattern-matching )。 在 
Python 术语 中 ， 主 要 有 两 种 方法 完成 模式 匹配 : “搜索 ”( searching )， 即 在 字符 串 任 意 部 
分 中 搜索 匹配 的 模式 ; 而 “匹配 ”( matching ) 是 指 判断 一 个 字符 串 能 否 从 起 始 处 全 部 或 者 
部 分 地 匹配 某 个 模式 。 搜 索 通 过 searchO 函 数 或 方法 来 实现 ， 而 匹配 通过 调用 match) Hs 
或 方法 实现 。 总 之 ， 当 涉及 模式 时 ， 全 部 使 用 术语 “匹配 ?; 我 们 按照 Python 如 何 完 成 模 
式 匹 配 的 方式 来 区 分 “搜索 ”和 “匹配 ”。 
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1-1 可 以 使 用 正则 表达 式 来 识别 有 效 的 Python 标识 符 , 例如 下 面 这 些 : [A-Za-z]\w+ 的 含义 是 第 一 个 字符 
字母 ， 也 就 是 说 要 么 A 一 Z， 要 么 a 一 z， 后 面 是 至 少 一 个 〈+) 由 字母 数字 组 成 的 字符 Ow). WEAR, 
J 以 看 到 很 多 字符 串 被 过 滤 ， 但 是 只 有 那些 符合 要 求 的 正则 表达 式 模式 的 字符 串 被 筛选 出 来 。 比 如 “4xZ?” 
被 筛选 出 来 ， 这 是 因为 它 是 以 数字 开头 的 


你 的 第 一 个 正则 表达 式 


前 面 讲 到 ， 正 则 表达 式 是 包含 文本 和 特殊 字符 的 字符 串 ， 该 字符 串 描 述 一 个 可 以 识别 各 
种 字符 串 的 模式 。 我 们 还 简单 阐述 了 正则 表达 式 字 母 表 。 对 于 通用 文本 ， 用 于 正则 表达 式 的 
字母 表 是 所 有 大 小 写字 母 及 数字 的 集合 。 可 能 也 存在 一 些 特殊 字母 ; 例如 , 指 仅 包含 字符 “0” 
和 “1” 的 字母 表 。 该 字母 表 可 以 表示 所 有 二 进 制 字 符 串 的 集合 ， 即 “0”、“1”、“00”、“01”、 
“10”“11”“100” 等 。 

现在 ， 让 我 们 看 看 正则 表达 式 的 大 部 分 基本 内 容 ， 虽 然 正则 表达 式 通常 被 视 为 “高 级 主 
rl”, 但 是 它们 其 实 也 非常 简单 。 把 标准 字母 表 用 于 通用 文本 ， 我 们 展示 了 一 些 简单 的 正则 表 
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达 式 以 及 这 些 模式 所 表述 的 字符 串 。 下 面 
仅仅 用 一 个 简单 的 字符 串 构造 成 一 个 匹 
所 示 为 几 个 正则 表达 式 和 它们 所 匹配 的 字 
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所 介绍 的 正则 表达 式 都 是 最 基本 、 最 普通 的 。 它 们 
配 字 符 串 的 模式 : 该 字符 串 由 正则 表达 式 定义 。 下 面 


AF FB 。 
































正则 表达 式 模 式 匹配 的 字符 串 
foo foo 
Python Python 
abc123 abc123 





上 面 的 第 一 个 正则 表达 式 模式 是 “foo”。 该 模式 没有 使 月 
而 只 匹配 所 描述 的 内 容 ， 所 以 ， 能 够 匹配 这 个 模式 的 只 有 包含 “foo” 的 字符 串 。 同 理 ， 对 于 
字符 串 “Python” 和 “abc123” 也 一 样 。 正 则 表达 式 的 强大 之 处 在 于 引入 特殊 字符 来 定义 字 
符 集 、 匹 配子 组 和 重复 模式 。 正 是 由 于 这 些 特 殊 符 号 ， 使 得 正则 表达 式 可 以 匹配 字符 串 集 合 ， 



















































































而 不 仅仅 只 是 某 单个 字符 串 。 


























TÉ 最 常见 的 特殊 符号 和 字符 ， 即 所 谓 的 元 字符 ，1 
功能 和 灵活 性 。 表 1-1 列 出 了 这 些 最 常 












































任何 特殊 符号 去 匹配 其 他 符号 ， 












































FE 是 它 给 予 正则 表达 式 强大 的 











RPS Ae 


见 的 符号 和 字符 。 






























































































































































































































































表 1-1 常见 正则 表达 式 符号 和 特殊 字符 

表示 法 ii i 正则 表达 式 示例 
符号 
literal 匹配 文本 字符 串 的 字面 值 literal foo 
rel|re2 匹配 正则 表达 式 rel 或 者 re2 foo|bar 

匹配 任何 字符 〈 除 了 之 外 ) b.b 
A 匹配 字符 串 起 始 部 分 ^Dear 
$ 匹配 字符 串 终止 部 分 /bin/*sh$ 
‘i 匹配 0 次 或 者 多 次 前 面 出 现 的 正则 表达 式 A-Za-z0-9]* 
* 匹配 1 次 或 者 多 次 前 面 出 现 的 正则 表达 式 a-z]+\.com 
7 匹配 0 次 或 者 1 次 前 面 出 现 的 正则 表达 式 goo? 
{N} 匹配 N 次 前 面 出 现 的 正则 表达 式 0-9)(3] 
{M,N} 匹配 M~N 次 前 面 出 现 的 正则 表达 式 0-9]{5,9} 
[...] MERA 51] RIT ER EIE aeiou] 
[..x-y..] 匹配 x~y 范围 中 的 任意 单一 字符 0-9], [A-Za-z] 
[| \ 匹 配 此 字符 集中 出 现 的 任何 一 个 字符 ， 包 括 某 一 范围 的 字符 〈 如 果 在 此 字符 集中 出 现 ) | [aeiou], [^A-Za-z0-9] 
EHA? 于 匹配 上 面 频 繁 出 现 /重复 出 现 符号 的 非 贪 禁 版 本 (*、+、?、{}) -*?[a-z] 
C) 匹配 封闭 的 正则 表达 式 ， 然 后 另存 为 子 组 ([0-9]{3 })?,f(oolu)ybar 
























































































































































































































































































































































































































































































































































6 第 1 部 分 通用 应 用 主题 
CRR) 

表示 法 Ho R 正则 表达 式 示例 
特殊 字符 

\d 匹配 任何 十 进 制 数字 ， 与 [0-9] 一 致 〈\VD 5M 相反 ， 不 匹配 任何 非 数值 型 的 数字 ) data\d+.txt 

\w 匹配 任何 字母 数字 字符 ， 与 [A-Za-z0-9_] 相 同 〈\W 与 之 相反 ) [A-Za-z_]\w+ 
\s DURE a TE, Ninang AS 与 之 相反 ) of\sthe 

\b 匹配 任何 单词 边界 (\B 与 之 相反 ) \bThe\b 

W 多 配 已 保存 的 子 组 N (参见 上 面 的 (...)) price: \16 

V 逐 字 匹配 任何 特殊 字符 c〈 即 ， 仅 按照 字面 意义 匹配 ， 不 匹配 特殊 含义 ) \,\,\ 
MZ) 匹配 字符 串 的 起 始 (结束 )( 男 见 上 面 介绍 的 ^ 和 $) \ADear 

扩展 表示 法 

CiLmsux) 在 正则 表达 式 中 嵌入 一 个 或 者 多 个 特殊 “标记 ”参数 〈 或 者 通过 函数 /方法 ) (2x), @ im) 
(2:...) 表示 一 个 匹配 不 用 保存 的 分 组 Q:Aw+\.)* 
(?P<name>...) | 像 一 个 仅 由 name 标识 而 不 是 数字 ID 标识 的 正则 分 组 匹配 (?P<data>) 
QP=name) 在 同一 字符 串 中 匹配 由 (?P<name) 分 组 的 之 前 文本 (2P=data) 
C...) 表示 注释 ， 所 有 内 容 都 被 忽略 (comment) 
(=...) 匹配 条 件 是 如 果 .… 出 现在 之 后 的 位 \ 使 用 输入 字符 串 ， 称 作 正 向 前 视 断 言 (2=.com) 
(1...) 匹配 条 件 是 如 果 .… 不 出 现在 之 后 的 位 不 使 用 输入 字符 串 ， 称 作 负 向 前 视 断 言 | Cnet 

(<= 匹配 条 件 是 如 果 .… 出 现在 之 前 的 位 \ 使 用 输入 字符 串 ， 称 作 正 向 后 视 断 言 (?<=800-) 
x1...) 匹配 条 件 是 如 果 .… 不 出 现在 之 前 的 位 不 使 用 输入 字符 串 ， 称 作 负 向 后 视 断 言 “| (?<!192\168\) 
QGd/name)YN) | 如 果 分 组 所 提供 的 id RE name (名 称 ) 存在 ， 就 返回 正则 表达 式 的 条 件 匹配 忆 如 | Cyl) 

果 不 存 在 ， 就 返回 N; |N 是 可 选项 

















1.2.1 使 用 择 一 匹配 符号 匹配 多 个 正则 表达 式 模式 








PLI 























































































































表示 择 一 匹配 的 管道 符号 〈|)， 也 就 是 键盘 上 的 竖 线 ， 表 示 一 个 “从 多 个 模式 中 选择 其 
一 ”的 操作 。 它 用 于 分 割 不 同 的 正则 表达 式 。 例 如 ， 在 下 面 的 表格 中 ， 左 边 是 一 些 运用 择 一 
匹配 的 模式 ， 右 边 是 左边 相应 的 模式 所 能 够 匹配 的 字符 。 

正则 表达 式 模式 匹配 的 字符 串 
at |home at、home 
12d2 | c3po r2d2. c3po 
bat | bet | bit bat, bet, bit 
有 了 这 个 符号 ， 就 能 够 增强 正则 表达 式 的 灵活 性 ， 使 得 正则 表达 式 能 够 匹配 多 个 字符 串 








而 不 仅仅 只 是 一 个 字符 上 


1.2.2 ”匹配 任意 单个 字符 
点 号 或 者 句点 CO 符号 匹配 除了 换行 符 \n 以 外 的 任何 字符 (Python 正则 表达 式 有 


H 
Ho 











择 一 












































匹配 有 时 候 也 称 作 并 Cunion) RAZA 〈logical OR). 








个 编 
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译 标 记 [S 或 者 DOTALL]， 该 标记 能 够 推翻 这 个 限制 ， 使 点 号 能 够 匹配 换行 符 )。 无 论 字 母 、 
数字 、 空 格 〈 并 不 包括 “mm ”换行 符 )、 可 打印 字符 、 不 可 打印 字符 ， 还 是 一 个 符号 ， 使 用 点 
号 都 能 够 匹配 它们 。 

























































































正则 表达 式 模式 匹配 的 字符 串 
fo 多 配 在 字母 “f” 和 “o” 之 间 的 任意 一 个 字符 ， 例 如 fao. f9o. ffo 等 
王 意 两 个 字符 
.end 匹配 在 字符 串 end 之 前 的 任意 一 个 字符 























问 : 怎样 才能 匹配 句点 (dot) 或 者 句号 (period) 字符 ? 
E: 要 显 式 匹 配 一 个 句点 符号 本 身 ， 必 须 使 用 反 和 斜 线 转 义 句点 符号 的 功能 ， 例 如 “\”。 


1.2.3 从 字符 串 起 始 或 者 结尾 或 者 单词 边 弄 匹配 


还 有 些 符号 和 相关 的 特殊 字符 用 于 在 字符 串 的 起 始 和 结尾 部 分 指定 用 于 搜索 的 模式 。 如 
果 要 匹配 字符 串 的 开始 位 置 , 就 必须 使 用 脱 字符 (^) 或 者 特殊 字符 \A( 反 斜 线 和 大 写字 母 A)。 
后 者 主要 用 于 那些 没有 脱 字符 的 键盘 (例如 ， 某 些 国际 键盘 )。 同 样 ， 美 元 符号 ($) 或 者 
将 用 于 匹配 字符 串 的 未 尾 位 置 。 

使 用 这 些 符号 的 模式 与 本 章 描述 的 其 他 大 多 数 模式 是 不 同 的 ， 因 为 这 些 模式 指定 了 位 置 
或 方位 。 之 前 的 “核心 提示 ”记录 了 匹配 〈 试 图 在 字符 串 的 开始 位 置 进行 匹配 》 和 搜索 OR 
图 从 字符 串 的 任何 位 置 开始 匹配 ) 之 间 的 差别 。 正 因 如 此 ， 下 面 是 一 些 表示 “边界 绑 定 ”的 
正则 表达 式 搜索 模式 的 示例 。 















































































































































































































































正则 表达 式 模式 匹配 的 字符 串 
^From 任何 以 From 作为 起 始 的 字符 串 
/bin/tesh$ 王 何以 /bin/tesh 作为 结尾 的 字符 串 
^Subject: hi$ 任何 由 单独 的 字符 串 Subject: hi 构成 的 字符 串 
















































































再 次 说 明 ， 如 果 想 要 逐 字 匹配 这 些 字符 中 的 任何 一 个 〈 或 者 全 部 )， 就 必须 使 用 反 斜 线 进 
行 转 义 。 例 如 ， 如 果 你 想 要 匹配 任何 以 美元 符号 结尾 的 字符 串 ， 一 个 可 行 的 正则 表达 式 方 案 
就 是 使 用 模式 .*\$$。 

特殊 字符 \b 和 \B 可 以 用 来 匹配 字符 边界 。 而 两 者 的 区 别 在 于 \b 将 用 于 匹配 一 个 单词 的 边 
界 ， 这 意味 着 如 果 一 个 模式 必须 位 于 单词 的 起 始 部 分 ， 就 不 管 该 单词 前 面 〈 单 词 位 于 字符 串 
中 间 ) 是 否 有 任何 字符 (单词 位 于 行 首 )。 同 样 ，\B 将 匹配 出 现在 一 个 单词 中 间 的 模式 《〈 即 ， 
不 是 单词 边界 )。 下 面 为 一 些 示例 。 

























































































4 







































































8 第 1 部 分 通用 应 用 主题 


















































正则 表达 式 模 式 匹配 的 字符 串 
the 任何 包含 the 的 字符 串 
\bthe 任何 以 the 开始 的 字符 串 
\bthe\b 仅仅 匹配 单词 the 
\Bthe 任何 包含 但 并 不 以 the 作为 起 始 的 字符 串 














1.2.4 创建 字符 集 


尽管 句点 可 以 用 于 匹配 任意 符号 ， 但 某 些 时 候 ， 可 能 想 要 匹配 茶 些 特定 字符 。 正 因 如 此 ， 
发 明了 方 括号 。 该 正则 表达 式 能 够 匹配 一 对 方 括号 中 包含 的 任何 字符 。 下 面 为 一 些 示 例 。 




























































































正则 表达 式 模式 匹配 的 字符 串 
b[aeiu ]t bat. bet. bit, but 
一 个 包含 四 个 字符 的 字符 串 ， 第 一 个 字符 是 “c” 或 “r”， 然 后 是 “2” 或 “3” 后 面 
[cr][23][dp][02] H «g» gp" Beg, A a o» BEY H ay» A 
是 “d” 或 “p”， 最 后 要 么 是 “o” 要 么 是 “2”。 例 如 ，c2do、I3p2、I2d2、c3po 等 














关于 [cr[23][dp][o2] 这 个 正则 表达 式 有 一 点 需要 说 明 : 如 果 仅 允许 *r2d2 "BK FH“ c3 po " 
作为 有 效 字 符 串 , 就 需要 更 严格 限定 的 正则 表达 式 。 因 为 方 括号 仅仅 表示 届 辑 或 的 功能 ， 
所 以 使 用 方 括号 并 不 能 实现 这 一 限定 要 求 。 唯 一 的 方案 就 是 使 用 择 一 匹配 ， 例 如 ， 
r2d2|c3po. 

然而 ， 对 于 单个 字符 的 正则 表达 式 ， 使 用 择 一 匹配 和 字符 集 是 等 效 的 。 例 如 ， 我 们 以 正 
则 表达 式 “ab” 作 为 开始 ， 该 正则 表达 式 只 匹配 包含 字母 “a” 且 后 面 跟着 字母 “b” 的 字符 
串 ， 如 果 我 们 想 要 [匹配 一 个 字母 的 字符 串 ， 例 如 ， 要 么 匹配 “a”， 要 么 匹配 “b” 就 可 以 使 
正则 表达 式 [ab]， 因 为 此 时 字母 “a” 和 字母 “b” 是 相互 独立 的 字符 串 。 我 们 也 可 以 选择 
正则 表达 式 alb。 然 而 ， 如 果 我 们 想 要 匹配 满足 模式 “ab” 后 面 且 跟 着 “cd” 的 字符 串 ， 我 们 
就 不 能 使 用 方 括号 ， 因 为 字符 集 的 方法 只 适用 于 单字 符 的 情况 。 这 种 情况 下 ， 唯 一 的 方法 就 
是 使 用 ablcd， 这 与 刚才 提 到 的 r2d2/c3po 问题 是 相同 的 。 


1.2.5 ”限定 范围 和 否定 


除了 单字 符 以 外 ， 字 符 集 还 支持 匹配 指定 的 字符 范围 。 方 括号 中 两 个 符号 中 间 用 连 字符 
C) 连接 ， 用 于 指定 一 个 字符 的 范围 ， 例 如 ，A-Z、a-z 或 者 0.9 分 别 用 于 表示 大 写字 母 、 小 
写字 母 和 数值 数字 。 这 是 一 个 按照 字母 顺序 的 范围 ， 所 以 不 能 将 它们 仅仅 限定 用 于 字母 和 十 
进 制 数字 上 。 另 外 ， 如 果 脱 字符 CO 紧 跟 在 左 方 括号 后 面 ， 这 个 符号 就 表示 不 匹配 给 定 字符 
集中 的 任何 一 个 字符 。 
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正则 表达 式 模式 匹配 的 字符 串 
z.[0-9] 字母 “z” 后 面 跟着 任何 一 个 字符 ， 然 后 跟着 一 个 数字 
[r-u][env-y][us] 字母 pg a 或 者 “u” AER “e” “n” “v” “w, “x RE “y”, 然后 跟着 “u” 或 者 “8” 

















[^aeiou] 


一 个 非 元 


BER 练习， 为 什么 我 人 














说 “ 非 元 音 ” 而 不 是 “ 畏 音 ”? ) 





[A\t\n] 


>J 





\ 匹 配制 表 符 或 者 m 





[a] 











1.2.6 ”使 用 闭 包 操作 符 实现 存在 性 和 频数 匹配 














本 节 介 绍 最 常 


























的 正则 表达 式 符 号 ， 








即 特殊 符号 * 


个 、 多 个 或 者 没有 出 现 的 字符 串 模 式 。 星 号 或 者 星 号 操作 符 (*) REIL 














出 现 零 次 或 者 多 次 的 情况 在 计算 机 编程 语言 和 编译 原理 ' 
































， 该 操作 


在 一 个 ASCI 系统 中 ， 所 有 字符 都 位 于 “” 和 “a” 之 间 ， 即 34~97 之 间 





、+ 和 ? ， 所 有 这 些 都 可 以 用 于 匹 
配 其 左边 的 正则 表达 式 






































IFUL 








fid — 


FE 称 为 Kleene P] &,). Jl 


号 (+) 操作 符 将 匹配 一 次 或 者 多 次 出 现 的 正则 表达 式 〈 也 叫做 正 闭 包 操 作 符 )， 问 号 〈? ) 
操作 符 将 匹配 零 次 或 者 一 次 出 现 的 正则 表达 式 。 























还 有 大 括号 操作 符 COO, BI 
的 正则 表达 式 和 次 (如 果 是 {N}) 或 者 一 定 范 
































确 地 [匹配 前 再 
Ac M~N 次 出 现 。 这 些 















































或 者 是 单个 值 或 者 是 一 对 由 














符号 能 够 由 反 和 斜 线 符号 转 义 ; 











注意 ， 在 之 前 


次 ， 或 者 其 他 含义 : 如果 间 号 紧 跟 在 人 





























达 式 引擎 匹配 尽 可 能 少 的 次 数 。 





“ 尽 可 


能 少 的 次 数 ” 是 什么 意思 ? 当 模 式 匹 

















VSIU 


E 何 使 用 闭合 操作 符 的 























配 使 




















配 星 








[=] 
写 ， 








的 表格 中 曾经 多 次 使 用 问号 〈 重 载 )， 这 意味 着 要 











围 的 次 数 ， BiG, (M. NM 


2E Ae 
=F 4F 0 


匹配 0 次 ， 要 么 匹配 1 


么 




















匹配 后 

















AM, EERE BRI 





逗号 分 隔 的 值 。 这 将 最 终 精 
Jn 











分 组 操作 符 时 , 1 





E 则 表达 式 引 擎 将 试 


F 则 表 





图 





“吸收 ”匹配 该 模式 的 尽 可 能 多 的 字符 。 这 通常 被 叫做 贪 葵 匹配 。 问 号 要 求 正 则 表达 式 引 擎 去 























“偷懒 ”， 如 果 可 能 ， 就 在 当前 的 1 







































































E 则 表达 式 中 尽 可 能 少 地 匹配 字符 ， 





UJ 
FH 











下 尽 可 能 多 的 字符 给 










































































后 面 的 模式 (如 果 存 在 )。 本 章 末 尾 将 用 一 个 典型 的 示例 来 说 明 非 贪 禁 匹配 是 很 有 必要 的 。 现 
在 继续 查看 闭 包 操 作 符 。 
正则 表达 式 模 式 匹配 的 字符 串 
[dn]ot? 字母 “d” 或 者 “n”， 后 面 跟 着 一 个 “0”， 然 后 是 最 多 一 个 “t”， 例如 ，do、no、dot、not 
0?[1-9] 任何 数值 数字 ， 它 可 能 前 置 一 个 “0”， 例如 ， 匹 配 一 系列 数 表示 从 1 一 9 月 的 数值 )， 不 
管 是 一 个 还 是 两 个 数字 
[0-9]{15,16} 匹配 15 或 者 16 个 数字 例如 信用 卡号 码 ) 
</?[^>]+> 匹配 全 部 有 效 的 (和 无 效 的 ) HTML 标签 
[KQRBNP][a-h][1-8]-[a-h][1-8] 在 “长 代数 ”标记 法 中 ， 表 示 国 际 象棋 合法 的 棋盘 移动 〈 仅 移动 ， 不 包括 吃 子 和 将 军 )。 
即 OK Re SO «R^. Sp". «N?" 或 «p^ 等 字母 后 面 加 上 at? ng “hg” 之 间 的 棋盘 坐标 。 
前 面 的 化 标 表示 从 哪里 开始 走 棋 ， 后 面 的 坐标 代表 走 到 哪个 位 置 ( 棋 格 ) 上 
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1.2.7 ”表示 字符 集 的 特殊 字符 


我 们 还 提 到 有 一 些 特殊 字符 能 














可 以 简单 地 使 用 d 表示 匹配 任何 十 进 f 



































Ac 











够 表示 字符 集 。 与 使 用 “0-9” 这 个 范围 表示 十 进 制 数 相 比 ， 






































。 男 一 个 特殊 字符 Aw) 能 够 用 于 表示 全 部 字母 

















数字 的 字符 集 ， 相 当 于 [A-Za-z0-9_] 的 缩写 形式 , Ns 可 以 用 来 表示 空格 字符 。 这 些 特殊 字符 的 
大 写 版 本 表示 不 匹配 ， 例 如 ，\D 表示 任何 非 十 进 制 数 (与 [^*0-9] 相 同 )， 等 等 。 














C1 

















使 用 这 些 缩写 ， 可 以 表示 如 下 一 些 更 复杂 的 示例 。 














































































































正则 表达 式 模 式 匹配 的 字符 串 
\w+-\d+ 个 由 字母 数字 组 成 的 字符 串 和 一 串 由 一 个 连 字符 分 隔 的 数字 
[A-Za-z]\w* 第 一 个 字符 是 字母 ， 其 余 字 符 (如果 存 在 ) 可 以 是 字母 或 者 数字 《几乎 等 价 于 Python 中 的 有 
效 标识 符 【参见 练习 ]) 
\d{3}-\d{3}-\d{4} 美国 电话 号 码 的 格式 ， 前 面 是 区 号 前 级 ， 例 如 800-555-1212 
\w+@\w+\.com 以 XXX@YYY.com 格式 表示 的 简单 电子 邮件 地 址 





1.2.8 使 用 圆 括号 指定 分 组 


现在 ， 我们 已 经 可 以 实现 匹配 茶 个 字符 串 以 及 丢弃 不 逻 配 的 字符 串 ， 但 有 些 时 候 ， 我 们 
可 能 会 对 之 前 匹配 成 功 的 数据 更 感 兴趣 。 我 们 不 仅 想 要 知道 整个 字符 串 是 否 匹 配 我 们 的 标准 ， 











而 且 想 要 知道 能 否 提取 任何 已 经 成 功 匹 




































































配 的 特定 字符 串 或 者 子 字符 串 。 答 案 是 可 以 ， 要 实现 


这 个 目标 ， 只 要 用 一 对 圆 括号 包 庄 任何 正则 表达 式 。 
当 使 用 正则 表达 式 时 ， 一 对 圆 括号 可 以 实现 以 下 任意 一 个 〈 或 者 两 个 ) 功能 : 
e 对 正则 表达 式 进 行 分 组 ; 


























。 EFH. 





























关于 为 何 想 要 对 正则 表达 式 进行 分 组 的 
而 且 想 用 它们 来 比较 同一 个 字符 串 时 。 男 一 个 原因 是 对 正则 表达 式 进行 分 组 可 以 在 整个 正则 























表达 式 中 使 用 
使 用 圆 括号 进行 分 组 的 一 个 


HI 
i 



























































个 很 好 的 示例 是 : 当 有 两 个 不 同 的 正则 表达 式 

















操作 符 〈 而 不 是 一 个 单独 的 字符 或 者 字符 集 )。 



































BE) 

















j 就 是 ， 





匹配 模式 的 子 字 符 串 可 以 保存 起 来 供 后 续 使 用 。 

















这 些 子 组 能 够 被 同一 次 的 匹配 或 者 搜索 重复 调用 ， 或 者 提取 出 来 用 于 后 续 处 理 。1.3.9 节 的 结 











尾 将 给 出 一 些 提取 子 组 的 示例 。 


















































为 什么 匹配 子 组 这 么 重要 呢 ? 主要 








要 提取 所 匹配 的 模式 。 例 如 ， 如 果 决 定 
和 第 二 部 分 的 数字 ， 该 如 何 实现 ? 我 们 可 能 想 要 这 样 做 的 原因 是 ， 对 于 任何 成 功 的 匹配 ， 我 








们 可 能 想 要 看 到 这 些 匹 配 正 则 表达 式 模式 的 字符 串 究 竟 是 什么 。 
如 果 为 两 个 子 模式 都 加 上 圆 括号 ， 例 如 
子 组 。 我 们 更 倾向 于 使 用 子 组 ， 这 是 因为 牛 
























































原因 是 在 很 多 时 候 除了 进行 匹配 操作 以 外 ， 我 们 还 想 
匹配 模式 \w+-\d+， 但 是 想 要 分 别 保存 第 一 部 分 的 字母 


















































CCw+)-(Cd+)， 然 后 就 能 够 分 别 访问 每 一 个 匹配 
一 匹配 通过 编写 代码 来 判断 是 否 匹 配 ， 然 后 














执行 另 一 个 单独 的 程序 〈 该 程序 也 需 








要 男 行 创建 ) 来 解析 整个 匹配 仅仅 月 
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于 提取 两 个 部 

































































分 。 为 什么 不 让 Python 自己 实现 呢 ? 这 是 re 模块 支持 的 一 个 特性 , 所 以 为 什么 非 要 重 踊 
78 HME ? 
正则 表达 式 模 式 匹配 的 字符 串 

MEM? 表示 简单 浮 点 数 的 字符 串 ， 也 就 是 说 ， 任何 十 进 制 数字 ， 后 面 可 以 接 一 个 小 数 点 和 有 零 个 或 
者 多 个 十 进 制 数 字 ， 例如 “0.004”, *2", “75.” 5x 

(Mr?s'\.)?[A-Z][a-z]*[A-Za-z-]+ 名 字 和 姓氏 ， 以 及 对 名 字 的 限制 《如果 有 ， 首 字母 必须 大 写 ， 后 续 字 母 小 写 )， 全 名 前 可 以 
ATERI “Mr.” “Mrs.” “Ms.” RE “M.” 作 为 称谓 ， 以 及 灵活 可 选 的 姓氏 ， 可 以 有 多 
个 单词 、 横 线 以 及 大 写字 瑟 








1.2.9 扩展 表示 法 


我 们 还 没 介 绍 过 的 正则 表 























我 们 不 会 为 此 花费 太 多 时 间 , 因为 它们 通常 














个 




















达 式 的 最 后 











方面 是 扩展 表示 法 , 它们 是 以 问号 开始 (3...)。 















































































































































于 在 判断 匹配 之 前 提供 标记 , 实现 一 个 前 视 (或 







































































































































































































































































者 后 视 ) 匹配 ， 或 者 条 件 检查 。 尽 管 圆 括号 使 用 这 些 符号 ， 但 是 只 有 〈?P<name> ) 表述 一 个 
分 组 匹配 。 URS 他 的 都 没有 创建 一 个 分 组 。 然 而 ， 你 仍然 需要 知道 它们 是 什么 ， 因 为 它们 
可 能 最 适合 用 于 你 所 需要 完成 的 任务 。 
正则 表达 式 模 式 匹配 的 字符 串 
(?:\w+\.)* 以 句点 作为 结尾 的 字符 串 ， 例 如 “google.”“twitter.”、“facebook.”， 但 是 这 些 匹 配 不 会 保存 下 来 
供 后 续 的 使 用 和 数据 检索 
(?#comment) 此 处 并 不 做 匹配 ， 只 是 作为 注释 
(?-.com) 如 果 一 个 字符 串 后 面 跟着 “.com” 才 做 匹配 操作 ， 并 不 使 用 任何 目标 字符 串 
(?!.net) 如 果 一 个 字符 串 后 面 不 是 跟着 “.net” 才 做 匹配 操作 
(?«-800-) 如 果 字 符 串 之 前 为 “800-” 才 做 匹配 ， 假 定 为 电话 号 码 ， 同 样 ， 并 不 使 用 任何 输入 字符 串 
(2<1192\,168\.) 如 果 一 个 字符 串 之 前 不 是 “192.168.” 才 做 匹配 操作 ， 假 定 用 于 过 滤 掉 一 组 C 类 IP 地 址 
QO)ypo 如 果 一 个 匹配 组 1 AD 存在 ， 就 与 y 匹配 ;和 否则， 就 与 x 匹 配 
1.3 正则 表达 式 和 Python 38 
在 了 解 了 关于 正则 表达 式 的 全 部 知识 后 ， 开 始 查 看 Python 当前 如 何 通过 使 用 re 模块 来 





























文 持 正则 表达 式 ，re 模块 在 古老 的 Python 1.5 版 中 引入 ， 用 于 替换 那些 已 过 时 的 regex 模块 





和 regsub 模块 一 一 这 两 个 模块 在 Python 2.5 版 中 移 除 ， 而 且 此 后 导 








个 都 会 触发 ImportError 异常 。 

















re 模块 支持 更 强大 而 且 更 
个 线程 共享 同一 个 已 编译 的 正 





















































入 这 两 个 模块 




















通用 的 Perl 风格 (Perl 5 风格 ) 的 正则 表达 式 ， 该 
则 表达 式 对 象 ， 也 支持 命名 子 组 。 


中 的 任意 一 





模块 允许 多 
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题 














通 


1.3.1 











表 1-2 列 出 了 来 























自 re 模块 的 


SS 












































多 常见 函数 和 方 ; 


re 模块 : 核心 函数 和 方法 








o 




















C NL 





的 大 多 数 函 数 也 与 己 经 编译 的 























































































































































































































































































































































































































































































































































































































































































































正则 表达 式 对 象 (regex object) 和 正则 匹配 对 象 (regex match object) 的 方法 同名 并 且 有 具有 
相同 的 功能 。 本 节 将 介绍 两 个 主要 的 函数 /方法 一 一 matchO0 和 search(), LAA compileO 函 数 。 
下 一 节 将 介绍 更 多 的 函数 ， 但 如 果 想 进一步 了 解 将 要 介绍 或 者 没有 介绍 的 更 多 相关 信息 ， 请 
查阅 Python 的 相关 文档 。 
表 1-2 常见 的 正则 表达 式 属性 
函数 /方法 fa 述 
仅仅 是 re 模块 函数 
compile(pattern, flags = 0) 哆 用 任何 可 选 的 标记 来 编译 正则 表达 式 的 模式 ， 然 后 返回 一 个 正则 表达 式 对 象 
re 模块 函数 和 正则 表达 式 对 象 的 方法 
match(pattern, string, flags=0) 尝试 使 用 带 有 可 选 的 标记 的 正则 表达 式 的 模式 来 匹配 字符 串 。 如 果 匹 配 成 功 ， 就 返 世 
匹配 对 象 ， 如 果 失 败 ， 就 返回 None 
search(pattern, string, flags=0) 哆 用 可 选 标记 搜索 字符 串 中 第 一 次 出 现 的 正则 表达 式 模式 。 如 果 匹 配 成 功 ， 则 返回 匹 
配对 象 ， 如 果 失 败 ， 则 返回 None 
findall(pattern, string [, flags] )° 查找 字符 串 中 所 有 GEER) 出 现 的 正则 表达 式 模式 ， 并 返回 一 个 匹配 列表 
finditer(pattern, string [, flags] )- 与 findall0) 函 数 相同 , (Eit [BUT] A Je — 1 PU, 4e — XR SET A RD, 35 
代 器 都 返回 一 个 匹配 对 象 
split(pattern, string, max=0)° 根据 正则 表达 式 的 模式 分 隔 符 ，split 函数 将 字符 串 分 割 为 列表 ， 然 后 返回 成 功 匹 配 的 
列表 ， 分 隔 最 多 操作 max 次 〈 默 认 分 割 所 有 匹配 成 功 的 位 置 ) 
re 模块 函数 和 正则 表达 式 对 象 方法 
sub(pattern, repl, string, count=0)° | 使 用 repl 蔡 换 所 有 正则 表达 式 的 模式 在 字符 串 中 出 现 的 位 置 ,除非 定义 count, 否则 就 
将 蔡 换 所 有 出 现 的 位 置 〈《 另 见 subn() 函 数 ， 该 函数 返回 蔡 换 操作 的 数目 ) 
purge() 清除 隐 式 编译 的 正则 表达 式 模式 
常用 的 匹配 对 象 方法 〈 查 看 文档 以 获取 更 多 信息 ) 
group(num=0) 返回 整个 匹配 对 象 ， 或 者 编号 为 num 的 特定 子 组 
groups(default=None) 返回 一 个 包含 所 有 匹配 子 组 的 元 组 (如 果 没 有 成 功 匹 配 ， 则 返回 一 个 空 元 组 ) 
groupdict(default=None) 返回 一 个 包含 所 有 匹配 的 命名 子 组 的 字典 ， 所 有 的 子 组 名 称 作 为 字典 的 键 〈 如 果 没 有 
成 功 匹 配 ， 则 返回 一 个 空 字典 ) 
常用 的 模块 属性 〈 用 于 大 多 数 正 则 表达 式 函 数 的 标记 ) 
re.I、re.IJGNORECASE 不 区 分 大 小 写 的 匹配 
re.L. re.LOCALE 根据 所 使 用 的 本 地 语言 环境 通过 \Ww、\WW、\b、\B、\s、\S 实现 匹配 
re.M, re.MULTILINE T UN 标 字 符 串 中 行 的 起 始 和 结尾 ， 而 不 是 严格 匹配 整个 字符 串 本 身 的 起 始 
0 结尾 
re.S、 rer.DOTALL “.”( 点 号 ) 通常 匹配 除了 GRATIS) 之 外 的 所 有 单个 字符 ， 该 标记 表示 “.”( 点 号 ) 
能 够 匹配 全 部 字符 
re.X、 re.VERBOSE 通过 反 斜 线 转 义 ， 否 则 所 有 空格 加 上 # (以 及 在 该 行 中 所 有 后 续 文 字 ) 都 被 忽略 ， 除 非 
在 一 个 字符 类 中 或 者 允许 注释 并 且 提 高 可 读 性 
(D Python 1.5.2 版 中 新 增 ; 2.4 版 中 增加 flags 参数 。 
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@ Python 2.2 版 中 新 增 ; 2.4 版 中 增加 flags 参数 。 
@) Python 2.7 和 3.1 版 中 增加 flags 参数 。 











核心 提示 : 编译 正则 表达 式 (编译 还 是 不 编译 ? ) 

在 Core Python Programming 或 者 即将 出 版 的 Core Python Language Fundamentals 的 
执行 环境 章节 中 ,介绍 了 Python 代码 最 终 如 何 被 编译 成 字 节 码 ， 然 后 在 解释 器 上 执行 。 特 
别 是 ， 我 们 指定 eval0 或 者 exec. (在 2.x 版 本 中 或 者 在 3.x 版 本 的 execO P ) 调用 一 个 代码 
对 象 而 不 是 一 个 字符 串 ， 性 能 上 会 有 明显 提升 。 这 是 由 于 对 于 前 者 而 言 ， 编 译 过 程 不 会 重 
复 执行 。 换 多 话说 ， 使 用 预 编 译 的 代码 对 象 比 直接 使 用 字符 串 要 快 ， 因 为 解释 器 在 执行 字 
符 串 形式 的 代码 前 都 必须 把 字符 串 编译 成 代码 对 象 。 

同样 的 概念 也 适用 于 正则 表达 式 一 一 在 模式 匹配 发 生 之 前 ,正则 表达 式 模 式 必 须 编译 
成 正则 表达 式 对 象 。 由 于 正则 表达 式 在 执行 过 程 中 将 进行 多 次 比较 操作 ， 因 此 强烈 建议 使 
用 预 编译 。 而 且 ， 有 既然 正则 表达 式 的 编译 是 必需 的 ， 那 么 使 用 预 编译 来 提升 执行 性 能 无 疑 
是 明智 之 举 。re.compileO 能 够 提供 此 功能 。 

其 实 模 块 函 数 会 对 已 编译 的 对 象 进行 缓 存 ， 所 以 不 是 所 有 使 用 相同 正则 表达 式 模 
式 的 search() 和 match() 都 需要 编译 。 即 使 这 样 ， 你 也 节省 了 缓存 查询 时 间 ， 并 且 不 必 
对 于 相同 的 字符 串 反复 进行 函数 调用 。 在 不 同 的 Python 版 本 中 ,缓存 中 已 编译 过 的 
正则 表达 式 对 象 的 数目 可 能 不 同 ， 而 且 没 有 文档 记录 。purge(O 函 数 能 够 用 于 清除 这 些 


1.3.2 ”使 用 compile() 函 数 编译 正则 表达 式 














后 续 将 扼要 介绍 的 几乎 所 有 的 re 模块 函数 都 可 以 作为 regex 对 象 的 方法 。 注 意 ， 尽 管 推 









































荐 预 编 译 ， 但 它 并 不 是 必需 的 。 如 果 需 要 编译 ， 就 使 用 编译 过 的 方法 ， 如 果 不 需要 编译 ， 就 






































i 


使 用 函数 。 幸 运 的 是 ， 不 管 使 用 函数 还 是 方法 ， 它 们 的 名 字 都 是 相同 的 (也 许 你 曾 对 此 感到 


























好 奇 ， 这 就 是 模块 函数 和 方法 的 名 字 相 同 的 原因 



























































的 对 象 ， 这 样 就 可 以 知道 它 的 过 程 是 怎么 回 事 。 
对 于 一 些 特别 的 正 贝 


























= 














> Pili, search(). match“). DX ZJXXXE X 
多 数 示例 中 省 去 一 个 小 步 又， 所 以 我 们 将 使 用 字符 串 蔡 代 。 我 们 仍 将 会 遇 到 几 个 预 编 译 代码 


表达 式 编译 ， 可 选 的 标记 可 能 以 参数 的 形式 给 出 ， 这 些 标记 允许 不 












































区 分 大 小 写 的 匹配 ， 使 用 系统 的 本 地 化 设置 来 匹配 字母 数字 ， 等 等 。 请 参考 表 1-2 中 的 条 上 



























































以 及 在 正式 的 官方 文档 中 查询 关于 这 些 标记 (re.IGNORECASE、 re.MULTILINE、 re.DOTALL, 














re. VERBOSE 等 ) 的 更 多 信息 。 它 们 可 以 通过 按 位 或 操作 符 〈|) 合并 。 
































这 些 标记 也 可 以 作为 参数 适用 于 大 多 数 re 模块 函数 。 如 果 想 要 在 方法 中 使 用 这 些 标记 ， 它 
们 必须 已 经 集成 到 已 编译 的 正则 表达 式 对 象 之 中 ， 或 者 需要 使 用 直接 能 入 到 正则 表达 式 本 身 的 
C? F) 标记 ， 其 中 下 是 一 个 或 者 多 个 i (用 于 re. IIGNORECASE), m (用 于 re.M/MULTILINE)、 
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s (HF re.S/DOTALL) 等 。 如 果 想 要 同时 使 用 多 个 ， 就 把 它们 放 在 一 起 而 不 是 使 用 按 位 或 操作 ， 
lan, Cim) 可 以 用 于 同时 表示 re.IGNORECASE il re. MULTILINE. 


1.3.3 ”匹配 对 象 以 及 group() 和 groups() 方 法 


当 处 理 正则 表达 式 时 ， 除 了 正则 表达 式 对 象 之 外 ， 还 有 另 一 个 对 象 类 型 : 匹配 对 象 。 这 
些 是 成 功 调用 match0) 或 者 search0O 返 回 的 对 象 。 匹 配对 象 有 两 个 主要 的 方法 : group( Fil 
groups()e 

group0 要 么 返回 整个 匹配 对 象 ， 要么 根据 要 求 返 回 特定 子 组 。groupsO 则 仅 返 回 一 个 包含 
唯一 或 者 全 部 子 组 的 元 组 。 如 果 没 有 子 组 的 要 求 ,那么 当 group0 仍 然 返 回 整个 匹配 时 ,groupsO 
返回 一 个 空 元 组 。 

Python 正则 表达 式 也 允许 命名 匹配 ， 这 部 分 内 容 超 出 了 本 节 的 范围 。 建 议 读者 查阅 完整 
的 re 模块 文档 ， 里 面 有 这 里 省 略 掉 的 关于 这 些 高 级 主题 的 详细 内 容 。 


1.3.4 使 用 match() 方 法 匹配 字符 串 
matchO 是 将 要 介绍 的 第 一 个 re 模块 函数 和 正则 表达 式 对 象 Cregex object) 方法 。matchO 
函数 试图 从 字符 串 的 起 始 部 分 对 模式 进行 匹配 。 如 果 匹 配 成 功 ， 就 返回 一 个 匹配 对 象 ， 如 果 


匹配 失败 ， 就 返回 None， 匹 配对 象 的 group(0 方 法 能 够 用 于 显示 那个 成 功 的 匹配 。 下 面 是 如 
何 运 用 match) (以 及 group0) 的 一 个 示例 : 































































































































































































































































































>>> m = re.match('foo', 'foo') 4 模式 匹配 字符 串 





























>>> if m is not None: # 如 果 匹 配 成 功 ， 就 输出 匹配 内 容 
m.group() 
'foo' 
模式 “foo” 完 全 匹配 字符 串 “foo” 我 们 也 能 够 确认 m 是 交互 式 解 释 嚣 中 匹配 对 象 的 示例 。 
>>> m # 确认 返回 的 匹配 对 象 











«re.MatchObject instance at 80ebf48> 

如 下 为 一 个 失败 的 匹配 示例 ， 它 返回 None。 
>>> m = re.match('foo', 'bar')# 模式 并 不 能 匹配 字符 串 
>>> if m is not None: m.group() # (单行 版 本 的 if 语句 ) 

















>>> 


因为 上 面 的 匹配 失败 ， 所 以 m 被 赋值 为 None， 而 且 以 此 方法 构建 的 if 语句 没有 指明 
任何 操作 。 对 于 剩余 的 示例 ， 如 果 可 以 ， 为 了 简洁 起 见 ， 将 省 去 if 语句 块 ， 但 在 实际 操作 
中 ， 最 好 不 要 省 去 以 避免 AttributeError 异常 (None 是 返回 的 错误 值 ， 该 值 并 没有 groupO 
属性 [方法 ] )。 















































H 
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只 要 模式 从 字符 串 的 起 始 部 分 开始 匹配 ， 即 使 字符 串 比 模式 长 ， 匹 配 也 仍然 能 够 成 功 。 
例如 ， 模 式 “foo” 将 在 字符 串 “food on the table” 中 找到 一 个 匹配 ， 因 为 它 是 从 字符 串 的 起 





























台 部 分 进行 匹配 的 。 
>>> m = re.match('foo', 'food on the table') 4 匹配 成 功 





>>> m.group() 


'foo' 

















可 以 看 到 , 尽管 字符 串 比 模式 要 长 , 但 从 字符 串 的 起 始 部 分 开始 匹配 就 会 成 功 。 子 串 “foo” 



































是 从 那个 比较 长 的 字符 串 中 抽取 出 来 的 匹配 部 分 。 
























































间 过 程 产生 的 结果 。 





甚至 可 以 充分 利用 Python 原生 的 面向 对 象 特性 ， 忽 略 保存 
>>> re.match('foo', 'food on the table').group() 
'foo' 


注意 ， 在 上 面 的 一 些 示例 中 ， 如 果 [ 匹 配 失败 ， 将 会 抛 出 AttributeError 异常 。 


























1.3.5 使 用 search() 在 一 个 字符 串 中 查找 模式 (搜索 与 匹配 
的 对 比 ) 


HK, TUE 














BR p HH BUE 7 61 88 RAT SERES, 


xc 





























远大 于 出 现在 字符 串 起 始 音 


分 的 概率 。 这 也 就 是 search0 派 上 用 场 的 时 候 了 。searchO 的 工作 方式 与 matchO 完 全 一 致 ， 不 
同 之 处 在 于 searchO 会 用 它 的 字符 串 参 数 ,在 任意 位 置 对 给 定 正 则 表达 式 模 式 搜索 第 一 次 出 现 








的 匹配 情况 。 如 果 搜 索 到 成 功 的 匹配 ， 就 会 返回 一 个 匹配 对 象 ; 
我 们 将 再 次 举例 说 明 matchO 和 searchO 之 间 的 差别 。 以 匹配 一 个 更 长 的 字符 串 为 例 ， 这 
TE “foo” LHE “seafood”: 



































>>> m= 












































re.match('foo', 'seafood') # 匹配 失败 


>>> if m is not None: m.group() 


BALA 








人 否则， 返回 None. 





可 以 看 到 ， 此 处 匹配 失败 。matchO 试 图 从 字符 串 的 起 始 部 分 开始 匹配 模式 ， 也 就 是 说 ， 





模式 中 的 “f” 将 






































匹配 到 字符 串 的 首 字母 “s” 上 ， 这 样 的 匹配 肯 
“foo” 确 实 出 现在 “seafood” 之 中 〔( 某 个 位 置 )， 所 以 ， 我 们 该 如 何 让 Python 得 出 肯定 的 结 







































































果 呢 ? 答案 是 使 用 


第 一 次 出 现 的 位 置 ， 而 且 严格 地 对 字符 串 从 左 到 右 搜索 。 


re.search('foo', 'seafood') 使 用 search () 代替 


>>> if m is not None: m.group() 


>>> m= 


"foo! 
>>> 





























# 搜索 成 功 ， 但 是 匹配 失败 





search0O 函 数 ， 而 不 是 尝试 匹配 。search0O 函 数 不 但 会 搜索 模式 在 字符 串 上 


Iu 


定 是 失败 的 。 然 而 ， 字 符 
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此 外 ， ma 


, 等 价 


El 
AE 


的 正则 








用 应 用 


NH 

















题 

















tch() 和 search() 都 使 用 在 1.3.2 节 





AN 


























本 节 后 面 将 使 用 match Of 


方法 , 通过 展示 大 量 的 实例 来 说 明 Python 中 了 




















语法 中 几乎 全 部 的 特殊 字符 和 
1.3.6 ”匹配 多 个 字符 串 


在 1.2 节 中 , 我们 在 正则 表达 式 batlbetlbit | 
正则 表达 式 的 方法 














中 使 








达 式 对 象 方法 使 用 可 选 的 pos 下 











Fy TA 


TIS. 








o 





"bat |be 


>>> m = re.match(bt, 


>>> bt 


>>> if m is not None: 


"bat! 


>>> m = re.match (bt, 


>>> if m is not None: 


>>> m = re.match(bt, 


>>> if m is not None: 


>>> m = re.search(bt, 


>>> if m is not None: 


"bit! 


Elbit! 


FE 则 表达 式 的 使 有 


ASS 


Ji 






































使 用 了 择 一 























的 可 选 的 标记 参数 。 最 后 ， 需 要 兴 


FE 意 的 














Il endpos BROKE H 
Il search() 正 则 表达 式 对 象 方法 以 及 group0 和 groupsO 匹 配对 象 
方法 。 我 们 将 使 月 








Fy TA 


DLAC CD 符号 。 





标 字 符 串 的 搜索 范围 








# 正则 表达 式 模式 : bat. bet. bit 
'bat') *o'bat' 是 一 个 匹配 
m.group() 
'blt') # 对 于 'blt' 没有 匹配 
m.group() 


'He bit me!') 4 不 
m.group() 


gb 








He 




















"He bit me!') # 通过 搜索 查找 'bit' 





m.group () 


1.3.7 ”匹配 任何 单个 字符 




















的 示例 ， 


g 
十 中 。 





>>> anyend = '.end' 


>>> m = re.match(anyend, 


>>> if m is not None: 


'bend' 


>>> m = re.match(anyend, 


>>> if m is not None: 


>>> m = re.match(anyend, 


>>> if m is not None: 


， 我 们 展示 了 点 号 〈.) 不 能 

















"bend') # 点 号 匹配 'b' 
m.group() 

‘end') # 不 匹配 任何 字符 
m.group() 

"\nend') — 8 除了 An 之 外 的 任何 字符 


m.group() 








匹配 一 个 换行 符 \ 或 者 非 字 符 ， 也 就 是 说 ， 





o 


正则 表达 式 


如 下 为 在 Python 
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>>> m = re.search('.end', 'The end.')# 在 搜索 中 匹配 ' ' 


>>> if m is not None: m.group() 


end' 




















下 面 的 示例 在 正则 表达 式 中 搜索 一 个 真正 的 句点 (小数点 ), 而 我 们 通过 使 用 一 个 反 斜 线 








HT 




















对 句点 的 功能 进行 转 义 : 
>>> patt314 = '3.14' # 表示 正则 表达 式 的 点 号 
>>> pi patt = '3\.14' # 表示 字面 量 的 点 号 (dec. point) 
>>> m = re.match(pi patt, '3.14') # 精确 匹配 


>>> if m is not None: m.group() 


'3.14' 








>>> m = re.match(patt314, '3014') # 点 号 匹配 '0' 


>>> if m is not None: m.group() 


'3014' 





>>> m = re.match(patt314, '3.14') # 点 号 匹配 '."' 


>>> if m is not None: m.group() 


"3.14! 


1.3.8 创建 字符 集 ([ D 























前 面 详细 讨论 了 [cr][23][dpj[o2]， 以 及 它们 与 r2d2|c3po 之 间 的 差别 。 下 面 的 示例 将 说 明 
对 于 12d2\c3po 的 限制 将 比 [crl[23][dp][o2] 更 为 严格 。 























>>> m = re.match('[cr][23][dp][o2]', 'c3po')# 匹配 'c3po' 


>>> if m is not None: m.group() 


'c3po' 


>>> m = re.match('[cr]I23][dp][o2]', 'c2do')4 匹配 'c2do' 


>>> if m is not None: m.group() 
'ezdo! 
>>> m = re.match('r2d2|c3po', 'c2do') # 


>>> if m is not None: m.group() 


>>> m= re.match('r2d2|c3po', "r2d2')# 


>>> if m is not None: m.group() 


'r2d2' 





不 匹配 'c2do' 








匹配 'r2d2' 
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1.3.9 重复 、 特 殊 字 符 以 及 分 组 


正则 表达 式 中 最 常见 的 情况 包括 特殊 字符 的 使 用 、 正 则 表达 式 模 式 的 重复 出 现 ， 以 及 使 用 
圆 括号 对 匹配 模式 的 各 部 分 进行 分 组 和 提取 操作 。 我 们 曾 看 到 过 一 个 关于 简单 电子 邮件 地 址 的 
正则 表达 式 (w+@\w+\.com )。 或 许 我 们 想 要 匹配 比 这 个 正则 表达 式 所 允许 的 更 多 邮件 地 址 。 
为 了 在 域名 前 添加 主机 名 称 支持 ， 例 如 www.xxx.com， 仅 仅 人 允许 xxx.com 作为 整个 域名 ， 必 须 
修改 现 有 的 正则 表达 式 。 为 了 表示 主机 名 是 可 选 的 ， 需 要 创建 一 个 模式 来 匹配 主机 名 (后 面 跟 
着 一 个 句点 )， 使 用 “? ”操作 符 来 表示 该 模式 出 现 零 次 或 者 一 次 ， 然 后 按照 如 下 所 示 的 方式 ， 
插入 可 选 的 正则 表达 式 到 之 前 的 正则 表达 式 中 : \w+@Cw+)?w+com。 从 下 面 的 示例 中 可 见 ， 
该 表达 式 允 许 .com 前 面 有 一 个 或 者 两 个 名 称 : 


>>> patt = '\wt@(\wt\.)?\wt\.com' 
>>> re.match (patt, 'nobody@xxx.com') .group () 











































































































































































































"nobody@xxx.com!' 
>>> re.match(patt, 'nobody@www.xxx.com') .group () 


"nobody@www.xxx.com' 


接 下 来 ， 用 以 下 模式 来 进一步 扩展 该 示例 ， 人 允许 任意 数量 的 中 间 子 域名 存在 。 请 特别 注 
意 细节 的 变化 ， 将 “?” 改 为 “*.:\w+@(Ww+t\*\Ww+t\.com”。 



































>>> patt = '\wt@(\wt\.)*\wt\.com' 
>>> re.match(patt, 'nobody@www.xxx.yyy.zzz.com') .group () 


"nobody@www.xxx.yyy.zzz.com!' 
但 是 , 我 们 必须 要 添加 一 个 “免责 声明 ”， 即 仅仅 使 用 字母 数字 字符 并 不 能 匹配 组 成 电子 
邮件 地 址 的 全 部 可 能 字符 。 上 述 正则 表达 式 不 能 匹配 诸如 xxx-yyy.com 的 域名 或 者 使 用 非 单 
词 \W 字符 组 成 的 域名 。 
之 前 讨论 过 使 用 圆 括号 来 匹配 和 保存 子 组 ， 以 便于 后 续 处 理 ， 而 不 是 确定 一 个 正则 表达 
式 匹配 之 后 ， 在 一 个 单独 的 子 程序 里 面 手 动 编码 来 解析 字符 串 。 此 前 还 特别 讨论 过 一 个 简单 
的 正则 表达 式 模 式 \w+-\d+， 它 由 连 字 符号 分 隔 的 字母 数字 字符 串 和 数字 组 成 ， 还 讨论 了 如 何 
添加 一 个 子 组 来 构造 一 个 新 的 正则 表达 式 Mw+)-(\d+) 来 完成 这 项 工作 。 下 面 是 初始 版 本 的 正 
则 表达 式 的 执行 情况 。 


>>> m = re.match('\w\w\w-\d\d\d', 'abc-123') 
>>> if m is not None: m.group() 
























































































































































'abc-123! 


>>> m = re.match('\w\w\w-\d\d\d', 'abc-xyz') 
>>> if m is not None: m.group() 


>>> 


























在 上 面 的 代码 ! 
数字 的 字符 串 。 使 
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， 创 建 了 一 个 正则 表达 式 来 识别 包含 3 个 字母 数字 字符 且 后 面 跟着 3 个 


























] abc-123 测试 该 正则 表达 式 ， 将 得 到 正确 的 结果 ， 但 是 使 ) 

















abc-xyz 则 不 


能 。 现 在 ， 将 修改 之 前 讨论 过 的 正则 表达 式 ， 使 该 正则 表达 式 能 够 提取 字母 数字 字符 串 和 数 
字 。 如 下 所 示 ， 请 注意 如 何 使 用 group0 方 法 访问 每 个 独立 的 子 组 以 及 groups0 方 法 以 获取 一 




















个 包含 所 有 匹配 子 组 的 元 组 。 








>>> m = re.match(' (\w\w\w)-(\d\d\d)', 


>>> m.group () 
'abc-123' 

>>> m.group (1) 
'abc' 


>>> m.group (2) 


13231 
>>> m.groups() 
(abet, '123') 


由 以 上 脚本 内 容 可 见 ，groupO 通 常用 














取 各 个 匹配 的 子 组 。 可 以 使 用 group 






































如 下 为 一 个 简单 的 示例 , 该 示例 展示 了 不 





>>> m = re.match('ab', 'ab') 
>>> m.group() 

‘ab! 

>>> m.groups () 

Q 

>>> 

>>> m = re.match('(ab)', 'ab') 


>>> m.group() 
‘ab! 

>>> m.group (1) 
‘ab! 

>>> m.groups () 
('ab',) 

>>> 

>>> m = re.match('(a) (b)', 
>>> m.group () 
‘ab! 

>>> m.group (1) 
a! 

>>> m.group (2) 
'p' 


>>> m.groups() 


'ab') 





4 





"abc-123') 


完整 匹配 























全 部 子 组 





于 以 普通 方式 显 
s0 方 法 来 获取 一 个 包含 所 有 匹配 子 字符 串 的 元 组 。 
同 的 分 组 排列 , 这 将 使 整个 事情 变 得 更 加 清晰 。 





没有 子 组 
完整 匹配 











所 有 子 组 






























































示 所 有 的 匹配 部 分 ， 但 也 能 用 于 获 
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>>> m = re.match('(a(b))', 'ab!) 
>>> m.group() 

‘ab! 

>>> m.group (1) 

‘ab! 

>>> m.group (2) 

'p' 

>>> m.groups () 

('ab', 'b') 



































所 有 子 组 


1.3.10 ”匹配 字符 串 的 起 始 和 结尾 以 及 单词 边 青 


























配 ， 因 为 match0 总 是 从 字符 串 开 始 位 置 进行 匹配 。 





>>> m = re.search('^The', 'The end.') 


>>> if m is not None: m.group() 


'The' 


>>> m = re.search('^The', 'end. The') 


>>> if m is not None: m.group() 





























如 下 示例 突出 显示 表示 位 置 的 正则 表达 式 操作 符 。 该 操作 符 更 多 用 于 表示 搜索 而 不 是 匹 





8 不 作为 起 始 





>>> m = re.search(r'\bthe', 'bite the dog') 4 在 边界 


>>> if m is not None: m.group() 


'the' 

>>> m = re.search(r'\bthe', 'bitethe 
>>> if m is not None: m.group() 

>>> m = re.search(r'\Bthe', 'bitethe 


>>> if m is not None: m.group() 


the" 


dog') 


dog') 


+ 有 边界 


# 没有 边界 








读者 将 注意 到 此 处 出 现 的 原始 字符 串 。 你 可 能 想 




















中 原始 字符 串 的 用 法 ”(Using Python raw strings)， 里 面 提 到 了 在 此 处 使 用 它们 的 原因 。 通 常 























要 查看 本 章 末尾 部 分 的 核心 提示 “Python 

































































读者 还 应 当 注 意 其 他 4 个 re 模块 函数 和 了 


情况 下 ， 在 正则 表达 式 中 使 用 原始 字符 串 是 个 好 主意 。 





EWK 











split() 。 


达 式 对 象 方法 : findall). sub(). subno FN 


1.3.11 使 用 findall() 和 finditer() 查 找 每 一 次 
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出 现 的 位 置 











findallO 查 询 字符 串 中 某 个 正则 表达 式 模式 全 部 的 非 重复 出 现 情况 。 这 与 search() 在 执行 








字符 串 搜 索 时 类 似 ， 
果 findall0 没 有 找到 

















匹配 的 部 分 ， 就 返回 一 个 空 




















































































































但 与 match0 和 searchO 的 不 同 之 处 在 于 ，findall0) 总 是 返回 一 个 列表 。 如 
列表 ， 但 如 果 匹 配 成 功 ， 列 表 将 包含 所 有 成 



















































































































































































功 的 匹配 部 分 〈 从 左 向 右 按 出 现 顺序 排列 )。 
>>> re.findall('car', 'car') 
'car'] 
>>> re.findall('car', 'scary') 
'car'] 
>>> re.findall('car', 'carry the barcardi to the car') 
Year", Opat pS earn” | 
子 组 在 一 个 更 复杂 的 返回 列表 中 搜索 结果 ， 而 且 这 样 做 是 有 意义 的 ， 因 为 子 组 是 允许 从 
单个 正则 表达 式 中 抽取 特定 模式 的 一 种 机 制 ， 例 如 匹配 一 个 完整 电话 号 码 中 的 一 部 分 (例如 
区 号 )， 或 者 完整 电子 邮件 地 址 的 一 部 分 (例如 登录 名 称 》 
对 于 一 个 成 功 的 匹配 ， 每 个 子 组 匹配 是 由 findall0) 返 回 的 结果 列表 中 的 单一 元 素 ; 对 于 
多 个 成 功 的 匹配 ， 每 个 子 组 匹配 是 返回 的 一 个 元 组 中 的 单一 元 素 ， 而 且 每 个 元 组 (每 个 元 组 
都 对 应 一 个 成 功 的 匹配 ) 是 结果 列表 中 的 元 素 。 这 部 分 内 容 可 能 第 一 次 听 起 来 令 人 迷惑 ， 但 
是 如 果 你 尝试 练习 过 一 些 不 同 的 示例 ， 就 将 澄清 很 多 知识 点 。 
finditerO 函 数 是 在 Python 2.2 版 本 中 添加 回来 的 ， 这 是 一 个 与 findall0 函 数 类 似 但 是 更 节 
省 内 存 的 变 体 。 两 者 之 间 以 及 和 其 他 变 体 函数 之 间 的 差异 “很 明显 不 同 于 返回 的 是 一 个 迭代 
器 还 是 列表 ) 在 于 ， 和 返回 的 匹配 字符 串 相 比 ，finditer0 在 匹配 对 象 中 迭代 。 如 下 是 在 单个 
闻 符 串 中 两 个 不 同 分 组 之 间 的 差别 。 
>>> s = 'This and that.' 
>>> re.findall(r'(th\wt) and (th\wt)', s, re.I) 





[('This', 
>>> re.finditer(r 


'that')] 

'(thNw*) and (th\wt)', s, 
eo re.I).next().groups() 

('This', 'that') 
>>> re.finditer(r'(thNw*) and (th\wt)', s, 


Ao re.I).next().group(1) 
'This' 
>>> re.finditer(r'(th\w+) and (th\wt)', s, 


- group (2) 





4 re.I).next() 
'that' 
>>> [g.groups() for g in re.finditer(r' (th\w+) 
S, re.I)] 


[('This', 'that')] 


and (th\wt)', 
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在 下 面 的 示例 中 ， 我 们 将 在 单个 字符 串 中 执行 单个 分 组 的 多 重 匹 配 。 

































































>>> re.findall(r'(th\wt)', s, re.I) 
['This', 'that'] 
>>> it = re.finditer(r'(th\wt)', s, re.I) 


>>> g = it.next() 
>>> g.groups () 
('This',) 

>>> g.group(1) 
'This' 

>>> g = it.next() 
>>> g.groups () 
('that',) 

>>> g.group(1) 
'that' 

>>> [g.group(1) for g in re.finditer(r'(th\wt)', s, re.I)] 
['Ihis', 'that'] 


注意 ， 使 用 finditer0 函 数 完 成 的 所 有 额外 工作 都 旨 在 获取 它 的 输出 来 匹配 findall0 的 输出 。 


fgki ,与 match() 和 searchO 类 似 ,findalO0 和 finditer0 方 法 的 版 本 支持 可 选 的 pos 和 endpos 
参数 ， 这 两 个 参数 用 于 控制 目标 字符 串 的 搜索 边界 ， 这 与 本 章 之 前 的 部 分 所 描述 的 类 似 。 


1.3.12 ”使 用 sub() 和 subn() 搜 索 与 替换 


有 了 两 个 函数 /方法 用 于 实现 搜索 和 蔡 换 功能 : sub0 和 subn0。 两 者 几乎 一 样 ， 都 是 将 某 字 
符 串 中 所 有 匹配 正则 表达 式 的 部 分 进行 某 种 形式 的 替换 。 用 来 奉 换 的 部 分 通常 是 一 个 字符 串 ， 
但 它 也 可 能 是 一 个 函数 ， 该 函数 返回 一 个 用 来 替换 的 字符 串 。subn0 和 sub0 一 样 ， 但 subn0) 
还 返回 一 个 表示 蔡 换 的 总 数 ， 蔡 换 后 的 字符 串 和 表示 蔡 换 总 数 的 数字 一 起 作为 一 个 拥有 两 个 
元 素 的 元 组 返回 。 
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>>> re.sub('X', 'Mr. Smith', 'attn: X\n\nDear X,\n') 
'attn: Mr. Smith\012\012Dear Mr. Smith, V012' 

>>> 

>>> re.subn('X', 'Mr. Smith', 'attn: X\n\nDear X Mn!) 
('attn: Mr. Smith\012\012Dear Mr. Smith, N012', 2) 

>>> 


>>> print re.sub('X', 'Mr. Smith', 'attn: X\n\nDear X,\n') 
attn: Mr. Smith 


Dear Mr. Smith, 


>>> re.sub('[ae]', 'X', 'abcdef') 
'Xbcaxf' 

>>> re.subn('[ae]', 'X', 'abcdef') 
('XbcdXf', 2) 
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前 面 讲 到 , 使 用 匹配 对 象 的 group O 方法 除了 能 够 取出 匹配 分 组 编号 外 , 还 可 以 使 用 \N， 
其 中 N 是 在 替换 字符 串 中 使 用 的 分 组 编号 。 下 面 的 代码 仅仅 只 是 将 美式 的 日 期 表示 法 
MM/DD/YY{,YY} 格 式 转 换 为 其 他 国家 常用 的 格式 DD/MM/YY YY 


>>> re.sub(r'(Nd(1,2])/ (N3(1,2)) / (\d{2} |N3(4]) ' , 
r'NW2/N1/N3', '2/20/91') 4 Yes, Python is... 
























































































































































'20/2/91' 

>>> re.sub(r' (Nd(1,2)) /(\d{1,2}) / (\Aa{2}|\d{4})", 

m r'W2/N1/N3', '2/20/1991') # ... 20+ years old! 
'20/2/1991' 


1.3.13 在 限定 模式 上 使 用 split() 分 隔 字 符 串 


re 模块 和 正则 表达 式 的 对 象 方法 split0 对 于 相对 应 字符 串 的 工作 方式 是 类 似 的 ， 但 是 与 
分 割 一 个 固定 字符 串 相 比 ， 它 们 基于 正则 表达 式 的 模式 分 隔 字 符 串 ， 为 字符 串 分 隔 功 能 添加 
一 些 额外 的 威力 。 如 果 你 不 想 为 每 次 模式 的 出 现 都 分 割 字 符 串 ,就 可 以 通过 为 max 参数 设 定 
一 个 值 〈 非 零 ) 来 指定 最 大 分 割 数 。 

如 果 给 定 分 隔 符 不 是 使 用 特殊 符号 来 匹配 多 重 模式 的 正则 表达 式 ， 那 么 respit) 与 
strsplitO 的 工作 方式 相同 ， 如 下 所 示 《〈 基 于 单 引号 分 割 )。 

>>> re.split(':', 'strl:str2:str3') 
['strl', 'str2', 'str3"] 

这 是 一 个 简单 的 示例 。 如 果 有 一 个 更 复杂 的 示例 ， 例 如 ， 一 个 用 于 Web 站 点 《类 似 于 
Google 或 者 Yahoo! Maps) 的 简单 解析 器 ， 该 如 何 实现 ?” 用 户 需要 输入 城市 和 州 名 ， 或 者 城 
市 名 加 上 ZIP 编码 ， 还 是 三 者 同时 输入 ? 这 就 需要 比 仅 仅 是 普通 字符 串 分 割 更 强大 的 处 理 方 
式 ， 具 体 如 下 。 


>>> import re 

>>> DATA = ( 

'Mountain View, CA 94040', 
'Sunnyvale, CA', 

'Los Altos, 94023', 
'Cupertino 95014', 

'Palo Alto CA', 
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.) 
>>> for datum in DATA: 


print re.split(', |(?= (?:\d{5}|[A-Z]{2})) ', datum) 
['Mountain View', 'CA', '94040'] 
['Sunnyvale', 'CA'] 
['Los Altos', '94023'] 
['Cupertino', '95014'] 


['Palo Alto', CAS] 
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上 述 正 则 表达 式 拥有 一 个 简单 的 组 件 ， 使 用 split 语句 基于 逗号 分 割 





























字符 串 。 更 难 的 部 分 是 


最 后 的 正则 表达 式 ， 可 以 通过 该 正则 表达 式 预 览 一 些 将 在 下 一 小 节 中 介绍 的 扩展 符号 。 在 普通 的 



































英文 中 ， 通 常 这 样 说 : 如果 空格 紧 跟 在 五 个 数字 ZIP 编码) 或 者 两 个 大 写字 母 〈 美 国联 邦 州 缩 



































写 ) 之 后 ， 就 用 split 语句 分 割 该 空格 。 这 就 允许 我 们 在 城市 名 中 放置 空格 。 
通常 情况 下 ， 这 仅仅 只 是 一 个 简单 的 正则 表达 式 ， 可 以 在 用 来 解析 位 置信 息 的 应 用 中 作 

























































































为 起 点 。 该 正则 表达 式 并 不 能 处 理 小 写 的 州 名 或 者 州 名 的 全 拼 、 街 道 
























































地 址 、 州 编码 、ZIP+4 








(9 位 ZIP 编码 人 经 纬度 ` 多 个 空格 等 内 容 ( 或 者 在 处 理 时 会 失败 )。 这 仅仅 意味 着 使 用 re.splitO 




















能 够 实现 strsplitO 不 能 实现 的 一 个 简单 的 演示 实例 。 













































































外 复杂 并 且 影 响 性 能 的 正则 表达 式 。 
13.44 扩展 符号 











我 们 刚刚 已 经 证 实 ， 读 者 将 从 正则 表达 式 split 语句 的 强大 能 力 中 获 益 ; 然而， 记得 一 定 
在 编码 过 程 中 选择 更 合适 的 工具 。 如 果 对 字符 串 使 用 split 方法 已 经 足够 好 ， 就 不 需要 引入 额 











Python 的 正则 表达 式 支 持 大 量 的 扩展 符号 。 让 我 们 一 起 查看 它们 
示 一 些 有 用 的 示例 。 




















的 一 些 内 容 ， 然 后 展 












































通过 使 用 CiLmsux) 系列 选项 ， 用 户 可 以 直接 在 正则 表达 式 里 面 指定 一 个 或 者 多 个 标 


























记 ， 而 不 是 通过 compile0 或 者 其 他 re 模块 函数 。 下 面 为 一 些 使 用 re..IGNORECASE 的 示例 ， 











最 后 一 个 示例 在 re.M/MULTILINE 实现 多 行 混合 : 


>>> re.findall(r'(?i)yes', 'yes? Yes. YES!!!) 

['yes', 'Yes', 'YES'] 

>>> re.findall(r'(?i)th\wt', 'The quickest way is through this 
tunnel.') 


['The', 'through', 'this'] 
>>> re.findall(r'(?im) (^th[Nw ]+) 7 """ 


. This line is the first, 





.. another line, 
. that line, it's the best 


. mmm) 


['This line is the first', 'that line'] 











在 前 两 个 示例 中 ， 显 然 是 不 区 分 大 小 写 的 。 在 最 后 一 个 示例 中 ， 通 过 使 用 “多 行 ” 能够 























“the”， 因 为 它们 并 不 出 现在 各 自 的 行 首 。 


























在 目标 字符 串 中 实现 跨行 搜索 ， 而 不 必 将 整个 字符 串 视 为 单个 实体 。 注 意 ， 此 时 忽略 了 实例 






































下 一 组 演示 使 用 re.S/DOTALL。 该 标记 表明 点 号 (.) 能 够 用 来 表示 \n 符号 (反之 其 通常 























于 表示 除了 \ 之 外 的 全 部 字符 ): 


>>> re.findall(r'th.+', ''' 








. The first line 
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. the second line 

. the third line 

peu) 
['the second line', 'the third line'] 
>>> re.findall(r'(?s)th.+', ''' 

. The first line 

. the second line 

. the third line 

we en) 
['the second line\nthe third line\n'] 


re.X/VERBOSE 标记 非常 有 趣 ; 该 标记 允许 用 户 通过 抑制 在 正则 表达 式 中 使 用 空白 符 ( 除 
了 在 字符 类 中 或 者 在 反 斜 线 转 义 中 ) 来 创建 更 易 读 的 正则 表达 式 。 此 外 ， 散 列 、 注 释 和 井 号 
也 可 以 用 于 一 个 注释 的 起 始 ， 只 要 它们 不 在 一 个 用 反 和 斜 线 转 义 的 字符 类 中 。 











































































































>>> re.search(r'''(?x) 
\((\d{3})\) # 区 号 
[ ] # 空白 符 
(\d{3}) # HAE 
z # 横 线 
(\d{4}) # 终点 数字 


. ''', '(800) 555-1212') .groups () 

(*800', '555*, '1212") 

(2:...) 符 号 将 更 流行 ; 通过 使 用 该 符号 ， 可 以 对 部 分 正则 表达 式 进 行 分 组 ， 但 是 并 不 会 保 

存 该 分 组 用 于 后 续 的 检索 或 者 应 用 。 当 不 想 保 存 今后 永远 不 会 使 用 的 多 余 匹 配 时 ， 这 个 符号 

就 非常 有 用 。 
>>> re.findall(r'http://(?:\wt\.)*(\wt\.com)', 

'http://google.com http://www.google.com http:// 























































































































code.google.com') 
['google.com', 'google.com', 'google.com'] 
>>> re.search(r'\((?P<areacode>\d{3})\) (?P<prefix>\d{3})-(?:\d{4})', 
' (800) 555-1212') .groupdict () 
('areacode': '800', 'prefix': '555'] 
读者 可 以 同时 一 起 使 用 OP <name>) 和 “(?P=name) 符 号 。 前 者 通过 使 用 一 个 名 称 标 

识 符 而 不 是 使 用 从 1 开始 增加 到 N 的 增 量 数字 来 保存 匹配 ， 如 果 使 用 数字 来 保存 匹配 结 
R, 我 们 就 可 以 通过 使 用 \1\2 …AN \ 来 检索 。 如 下 所 示 , 可 以 使 用 一 个 类 似 风格 的 \g<name> 
来 检索 它们 。 

>>> re.sub(r'\((?P<areacode>\d{3})\) (?P<prefix>\d{3})-(?:\d{4})', 


'(Ng«areacode») \g<prefix>-xxxx', '(800) 555-1212") 
'(800) 555-xxxx' 
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使 月 











































































































得 稍 许 易 读 。 





>>> bool(re.match(r'\((?P<areacode>\d{3})\) (?P<prefix>\d{3})- 
(?P<number>\d{4}) (?P=areacode) - (?P-prefix)- (?P=number) 
1(?P-areacode) (?P-prefix) (?P=number) ', 

'(800) 555-1212 800-555-1212 18005551212") ) 














True 
>>> bool (re.match(r''' (?x) 
match (800) 555-1212, save areacode, prefix, no. 
\ ((?P<areacode>\d{3})\) [ ] (?P<prefix>\d{3})-(?P<number>\d{4}) 
space 
] 
match 800-555-1212 
(?P-areacode)- (?P-prefix)- (?P-number) 
Space 
] 
match 18005551212 
(?P-areacode) (?P-prefix) (?P-number) 
. ''', '(800) 555-1212 800-555-1212 18005551212')) 
True 














昌 后 者 ， 可 以 在 一 个 相同 的 正则 表达 式 中 重用 模式 ， 而 不 必 稍 后 再 次 在 相同) 
正则 表达 式 中 指定 相同 的 模式 。 例 如 ， 在 本 示例 中 ， 假 定 让 读者 验证 一 些 电话 号 码 的 规 
范 化 。 如 下 所 示 为 一 个 丑陋 并 且 压 缩 的 版 本 ， 后 面 跟着 一 个 正确 使 用 的 (?x)， 使 代码 变 





以 使 用 (22...) 和 (31...) 符 号 在 目标 字符 串 中 实现 一 个 前 视 匹 配 , 而 不 必 实 际 上 使 











b oz 

















jd 


A — — 





ze 

















8 字符 串 。 前 者 是 正 向 前 视 断 言 ， 后 者 是 负 向 前 视 断 言 。 在 后 面 的 示例 中 ， 























我 们 仅仅 对 


‘van Rossum” 的 人 的 名 字 感 兴趣 ， 下 一 个 示例 中 ， 证 我 们 忽略 以 “noreply” 或 者 
“postmaster” 开 头 的 e-mail 地 址 。 












































代码 片段 用 于 演示 findall0 和 finditer0 的 区 别 ; 我 们 使 用 后 者 来 构建 
































个 使 用 相同 











登录 名 但 不 同 域名 HY e-mail 地 址 列表 《〈 在 一 个 更 易于 记忆 的 方法 中 ， 通 过 忽略 创建 用 完 即 丢 
弃 的 中 间 列 表 )。 





>>> re.findall(r'\w+(?= van Rossum)', 
vee 
Guido van Rossum 


Tim Peters 
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Alex Martelli 
Just van Rossum 
Raymond Hettinger 
gb) 
['Guido', 'Just'] 
>>> re.findall(r' (?m)^Vs* (?! noreply |postmaster) (\wt)', 
ver 
sales@phptr.com 
postmaster@phptr.com 
eng@phptr.com 
noreply@phptr.com 
ne admin@phptr.com 
e.) 
['sales', 'eng', 'admin'] 
>>> ['$sQaw.com' $ e.group(1) for e in \ 
re.finditer (r' (?m) ^Vs* (?! noreply|postmaster) (\wt)', 
ver 
sales@phptr.com 
postmaster@phptr.com 
eng@phptr.com 
noreply@phptr.com 
m admin@phptr.com 
eo VEM] 


['sales@aw.com', 'eng@aw.com', 'admin@aw.com'] 
最 后 一 个 示例 展示 了 使 用 条 件 正 则 表达 式 匹 配 。 假 定 我 们 拥有 另 一 个 特殊 字符 , 它 仅 
仅 包含 字母 “x” 和 “y”， 我 们 此 时 仅仅 想 要 这 样 限 定 字符 串 : 两 字母 的 字符 串 必须 由 一 
个 字母 跟着 另 一 个 字母 。 换 句 话 说， 你 不 能 同时 拥有 两 个 相同 的 字母 ， 要 么 由 “x” 跟 着 
"y" BAKA 













































































>>> bool (re.search(r'(?:(x)|y) (? (DD y 0 ', 'xy')) 
True 

>>> bool (re.search(r'(?:(x)|y) (? (DD y 0 ', 'xx!)) 
False 


1.3.15 I 


可 能 读者 会 对 于 正则 表达 式 的 特殊 字符 和 特殊 ASCI 符号 之 间 的 差异 感到 迷惑 。 我 们 
可 以 使 用 \n 表示 一 个 换行 符 ， 但 是 我 们 可 以 使 用 \d 在 正则 表达 式 中 表示 匹配 单个 数字 。 
如 果 有 符号 同时 用 于 ASCI 和 正则 表达 式 ， 就 会 发 生 问题 ， 因 此 在 下 面 的 核心 提示 中 ， 
建议 使 用 Python 的 原始 字符 串 来 避免 产生 问题 。 另 一 个 警告 是 : \w 和 \W 字母 数字 字符 集 同 
时 受 re.L/LOCALE 和 Unicode (re.U/UNICODE) 标记 上 所 影 
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核心 提示 : 使 用 Python 原始 字符 中 

读者 可 能 在 之 前 的 一 些 示 例 中 见 过 原始 字符 串 的 使 用 。 正 则 表达 式 对 于 探索 原始 字符 
PARKAD, 原因 就 在 于 ASCI 字符 和 正则 表达 式 的 特殊 字符 之 间 存 在 冲突 。 作 为 
一 个 特殊 符号 , Vo 表示 ASCI 字符 的 退 格 符 , 但 是 \b 同时 也 是 一 个 正则 表达 式 的 特殊 符号 ， 
表示 匹配 一 个 单词 的 边界 。 对 于 正则 表达 式 编译 器 而 言 ， 若 它 把 两 个 \b 视 为 字符 串 内 容 而 
不 是 单个 退 格 符 ， 就 需要 在 字符 囊 中 再 使 用 一 个 反 斜 线 转 义 反 斜 线 ， 就 像 这 样 : Wo. 

这 样 显得 略微 杂乱 ,特别 是 如 果 在 字符 囊 中 拥有 很 多 特殊 字符 ,就 会 让 人 感到 更 加 
R. PIV Core Python Programming 或 者 Core Python Language Fundamentals 的 Sequence 
章节 中 介绍 了 原始 字符 囊 ， 而 且 该 原始 字符 囊 可 以 用 于 ( 且 经 常用 于 ) 帮助 保持 正则 表达 
式 查找 某 些 可 托管 的 东西 。 事实 上 , 很 多 Python 程序 员 总 是 抱怨 这 个 方法 ,仅仅 用 原始 字 
AE PRE EM RIAA, 

如 下 所 示 的 一 些 示 例 用 于 说 明 退 格 符 \b 和 正则 表达 式 \b 之 间 的 差异 ， 它 们 有 的 使 用 、 
有 的 不 使 用 原始 字符 串 。 


>>> m = re.match('\bblow', 'blow') # backspace, no match 


>>> if m: m.group () 


>>> m = re.match('\\bblow', 'blow') # escaped\, now it works 


>>> if m: m.group() 
'blow' 
>>> m = re.match(r'\bblow', 'blow') # use raw string instead 


>>> if m: m.group() 
ee 
读者 可 能 回想 起 来 我 们 在 正则 表达 式 中 使 用 Wd 而 没有 使 用 原始 字符 串 时 并 未 遇 到 问题 , 这 
是 因为 ASCII 中 没有 相应 的 特殊 字符 ， 所 以 正则 表达 式 的 编译 器 知道 你 想 要 表示 十 进 制 数字 。 


1.4 一 些 正则 表达 式 示例 


下 面 看 一 些 Python 正则 表达 式 的 示例 代码 ， 这 将 使 我 们 更 接近 实际 应 用 中 的 程序 。 如 下 
所 示 ， 以 POSIX (UNIX 风格 操作 系统 ， 如 Linux、Mac OS X 等) 的 who 命令 的 输出 为 例 ， 
该 命令 将 列 出 所 有 登录 当前 系统 中 的 用 户 信 息 。 






























































$ who 
wesley console Jun 20 20:33 
wesley pts/9 Jun 22 01:38 (192.168.0.6) 


wesley pts/1l Jun 20 20:33 (10.0) 


可 能 我 们 想 要 保存 一 些 月 
时 间 和 地 点 。 在 前 面 的 示例 中 使 





wesley pts/2 
wesley pts/4 
wesley pts/3 
wesley pts/5 
wesley pts/6 
wesley pts/7 
wesley pts/8 


























一 致 。 另 
连续 的 字 
读者 





式 很 容易 完成 。 很 快 ， 我 们 可 以 使 


n 








n 



































Bt. 








一 个 问题 是 在 登 








需要 一 些 方法 描述 诸 丸 
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/NN 


20 
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户 登 录 信 息 ， 诸 如 登录 名 、 月 
J strsplit() 方 法 并 不 高 效 ， 因 


日 户 登 录 的 终端 类 
为 此 处 的 空 




















n 


和 时 间 之 间 有 空格 ， 我 们 可 








分 割 两 个 或 者 多 个 空 
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型 








n 



































正则 表达 式 模式 \s\s+， 该 模式 的 意思 是 至 




















b 


1 














符 ” 之 类 的 模式 。 这 通过 正则 表达 
I 有 两 个 以 


下 面 创建 一 个 名 为 rewho.py 的 程序 , 该 程序 读 取 who 命令 的 输出 , 然后 假定 将 得 到 的 输 
o rewho.py 脚本 最 初 如 下 所 示 : 














出 信 ， 


ER 
为 了 避免 


线 来 保持 





import re 


f = open('whodata.txt', 


for eachLine in 


print re.spl 


f: 









































'r!) 








息 存 入 一 个 名 为 whoadat.txt 的 文件 之 

















lit(r'\s\st+', eachLine) 



















































































f.close() 
代码 同样 使 用 原始 字符 串 《〈 将 字母 “r” 或 者 “R” 放 置 在 左 引号 之 前 )， 主 要 目的 是 
转 义 特殊 字符 串 字 符 ， 如 m， 该 字符 并 不 是 特殊 的 正则 表达 式 模式 。 对 于 确实 拥有 
反 斜 线 的 正则 表达 式 模式 ， 读 者 可 能 希望 逐 字 地 处 理 它 们 ， 否 则 ， 读 者 必须 在 前 面 加 上 双 斜 
它们 的 安全 。 
现在 将 执行 who 命令 ,保存 输出 到 whodata.txt 文件 之 中 ， 然 后 调用 rewho.py 查看 结果 。 
$ who > whodata.txt 
$ rewho.py 
'wesley', 'console', 'Jun 20 20:33\012'] 
'wesley', 'pts/9', 'Jun 22 01:38\011(192.168.0.6)\012"] 
'wesley', 'pts/1', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/2', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/4', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/3', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/5', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/6', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/7', 'Jun 20 20:33\011(:0.0)\012' 
'wesley', 'pts/8', 'Jun 20 20:33\011(:0.0)\012' 
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这 是 非常 好 的 一 次 尝试 。 首 先 ， 我 们 不 期 望 单个 制 表 符 (ASCIT\011) 作为 输出 的 一 
部 分 (可 能 看 起 来 像 是 至 少 两 个 空白 符 ), 然后 可 能 我 们 并 不 真 的 希望 保存 \n(ASCII\012) 
作为 每 一 行 的 终止 符 。 我 们 现在 将 修复 这 些 问题 ， 然 后 通过 一 些 改进 来 提高 应 用 的 整体 














首先 ， 应 当 在 脚本 内 部 运行 who 命令 而 不 是 在 外 部 ， 然 后 将 输出 存 入 whodata.txt 文件 ， 
如 果 和 手动 重复 做 这 件 事 很 快 就 会 感到 厌倦 。 要 在 该 程序 中 调用 其 他 程序 , 需要 调用 os.popen() 
命令 。 尽管 os.popen0 命 令 现 在 已 经 被 subprocess 模块 所 蔡 换 ,但 它 更 容易 使 用 ， 而 且 此 处 的 
重点 是 展示 re.split0 的 功能 。 

去 除 尾部 的 mn 使 用 strrstripO0)， 然 后 添加 单个 制 表 符 的 检查 ， 用 于 代 蔡 re.splitO 分 
隔 符 。 示 例 1-1 展示 最 终 的 rewho.py 脚本 在 Python 2 中 的 版 本 。 












































示例 1-1 分 割 POSIX 的 who 命令 输出 〈rewho.py) 
该 脚本 调用 who 命令 ， 然 后 通过 不 同类 型 的 空白 字符 分 割 输入 的 数据 解析 输入 。 



































#!/usr/bin/env python 


1 

2 

3 import os 

4 import re 

5 

6 f= os.popen('who', 'r') 

7 for eachLine in f: 

8 print re.split(r'\s\s+|\t', eachLine.rstripQ) 
9 f.closeQ) 





示例 1-2 表示 rewho3.py, 这 是 Python 3 版 本 。 和 Python 2 版 本 的 主要 差别 在 于 printo 
函数 〈 或 者 表达 式 )。 这 一 整 行 表明 了 Python 2 和 3 的 关键 区 别 。with 语句 在 Python 2.5 
版 中 是 试验 性 的 , 在 Python 2.6 版 本 中 提供 正式 支持 , 该 语句 用 于 操作 并 支持 所 构建 的 对 
象 实例 。 


















































示例 1-2 rewho.py 脚本 的 Python 3 kas (rewho3.py) 


该 rewho.py 的 Python 3 版 本 仅 简 单 地 运用 print O RABKI print 语句 。 当 使 用 with a CM 
Python 2.5 版 本 起 可 用 ) 时 ， 记 住 ，file (Python 2) 或 者 io (Python 3) 对 象 的 上 下 文 管理 器 会 
动 调 用 f.close()。 































































































#!/usr/bin/env python 


l 

2 

3 import os 

4 import re 

5 

6 with os.popen('who', 'r') as f: 
7 for eachLine in f: 


8 print(re.split(r'\s\s+|\t', eachLine.stripQ)) 
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通过 使 用 with 语句 ， 拥 有 上 下 文 管理 器 的 对 象 变 得 更 易于 使 用 。 关 于 with 语句 和 上 下 
文 管理 的 更 多 信息 ， 请 参考 Core Python Pragramming 或 者 Core Pythom Language 
Fundamentals 中 的 “Errors and Exceptions” 章 节 。 记 住 ， 两 个 版 本 Crewho.py 或 者 rewho3.py) 
中 的 who 命令 仅 能 在 POSIX 系统 中 使 用 ,除非 可 以 在 Windows 系统 的 计算 机 中 使 用 Cygwin. 
对 于 运行 Microsoft Windows 的 个 人 电脑 ， 可 以 尝试 tasklist 命令 ， 但 读者 还 需要 做 一 个 额外 
的 调整 。 继 续 阅 读本 章 后 续 的 章节 ， 查 看 一 个 执行 that 命令 的 示例 。 
示例 1-3 将 rewho.py 和 rewho3.py 合并 为 rewhoU.py, 该 名 称 的 含义 是 “通用 的 rewho”. 
该 程序 能 够 在 Python 2 和 3 的 解释 器 下 运行 。 我 们 欺骗 并 避免 使 用 print 或 者 print), 方法 是 
使 用 一 个 在 2.x 和 3.x 版 本 中 都 存在 并 且 功 能 并 不 齐全 的 函数 : distutils.log.warn()。 这 是 一 个 
单字 符 串 输出 函数 ， 因 此 如 果 输 出 要 复杂 一 些 ， 就 需要 合并 所 有 输出 到 一 个 字符 串 中 ， 然 后 
调用 。 要 在 该 脚本 中 指明 它 的 使 用 方式 ， 就 将 它 命 名 为 printf0。 
我 们 也 在 此 使 用 with 语句 。 这 就 意味 着 读者 需要 至 少 使 用 Python 2.6 版 本 来 运行 该 程序 。 
这 还 不 确切 。 之 前 提 到 过 , 在 2.5 版 本 中 with 语句 是 试验 性 的 。 这 就 意味 着 如 果 想 要 在 Python 
2.5 中 使 用 ， 就 需要 导入 额外 的 语句 : from future import with_statement。 如 果 读 者 仍 
在 使 用 2.4 或 者 更 老 的 版 本 ， 就 不 能 使 用 这 个 import 语句 ， 并 且 必 须 按照 示例 1-1 那样 运行 
这 段 代码 。 











































































































































































































































































































































































































示例 1-3 rewho.py 脚本 的 通用 版 本 〈rewhoU.py) 


该 脚本 运行 在 Python 2 和 3 下 ， 通 过 一 个 很 简单 的 替换 来 代替 print 语句 和 print () 函数 。 该 脚本 还 包含 从 
Python 2.5 开始 引 入 的 with 语句 。 






































#!/usr/bin/env python 


1 

2 

3 import os 

4 from distutils.log import warn as printf 

5 import re 

6 

7 with os.popen('who', 'r') as f: 

8 for eachLine in f: 

9 printf(re.split(r'\s\s+|\t', eachLine.stripQ)) 











rewhoU.py 的 创建 是 一 个 介绍 如 何 创建 通用 脚本 的 示例 ， 这 将 帮助 我 们 避免 为 Python 2 
和 3 同时 维护 两 个 版 本 的 相同 脚本 。 
























































使 用 合适 的 解释 器 执行 这 些 脚本 中 的 任何 一 个 都 会 得 到 正确 、 简 洁 的 输出 。 
$ rewho.py 
['wesley', 'console', 'Feb 22 14:12'] 
['wesley', 'ttys000', 'Feb 22 14:18'] 
['wesley', 'ttys001', 'Feb 22 14:49'] 
['wesley', 'ttys002', 'Feb 25 00:13', '(192.168.0.20)'] 
['wesley', 'ttys003', 'Feb 24 23:49', '(192.168.0.20)'] 
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同样 不 要 和 忘记， 之 前 的 小 节 介 绍 过 re.split0 函 数 也 可 以 使 用 可 选 的 flage 参数 。 
在 Windows 计算 机 上 可 以 使 用 tasklist 命令 替代 who 来 得 到 类 似 的 结果 。 让 我 们 查看 该 
命令 的 输出 结果 。 


C:\WINDOWS\system32>tasklist 















































Image Name PID Session Name Session# Mem Usage 
System Idle Process 0 Console 0 28 K 
System 4 Console 0 240 K 
smss.exe 708 Console 0 420 K 
csrss.exe 764 Console 0 4,876 K 
winlogon.exe 788 Console 0 3,268 K 
services.exe 836 Console 0 3,932 K 


可 以 看 到 ， 输 出 包含 不 同 于 who 命令 的 输出 信息 ， 但 格式 是 类 似 的 ， 所 以 可 以 考虑 之 前 
的 方案 : 在 一 个 或 多 个 空白 符 上 执行 re.split0) 〈 此 处 没有 制 表 符 的 问题 )。 

问题 是 命令 名 称 可 能 有 一 个 空白 符 ， 而 且 我 们 (应 当 ) 更 倾向 于 将 整个 命令 名 称 连 接 
在 一 起 。 对 于 内 存 的 使 用 也 有 这 个 问题 ， 我 们 通常 得 到 的 是 “NNN K”， 其 中 NNN 是 内 存 
数量 大 小 ，K 表示 千 字 节 。 我 们 也 希望 将 这 些 数据 连接 在 一 起 ， 因 此 ， 最 好 分 隔 至 少 一 个 
空白 符 ， 对 吧 ? 

不 ， 不 能 这 样 做 。 注 意 ， 进 程 ID (PID) 和 会 话 名 称 列 仅仅 由 一 个 空白 符 分 隔 。 这 就 意 
味 着 如 果 去 掉 至 少 一 个 空白 符 ，PID 和 会 话 名 称 将 被 合并 在 一 起 作为 单个 结果 。 如 果 复 制 之 
前 的 一 个 脚本 ， 重 命名 它 为 retasklistpy， 然 后 将 who 命令 修改 为 tasklist /nh Cnh 选项 将 会 去 
除 每 一 列 的 标题 )， 并 使 用 一 个 \s\s+ 正 则 表达 式 ， 就 将 得 到 如 下 所 示 的 输出 。 
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Z:NcorepythonNchl»python retasklist.py 

"'"] 

"System Idle Process', '0 Console', '0', '28 K'] 
'System', '4 Console', '0', '240 K'] 

'smss.exe', '708 Console', '0', '420 K'] 
'csrss.exe', '764 Console', '0', '5,028 K'] 


'winlogon.exe', '788 Console', '0', '3,284 K'] 





'services.exe', '836 Console', '0', '3,924 K'] 














已 经 确认 ， 尽 管 我 们 将 命令 名 称 和 内 存 使 用 字符 串 保 存在 一 起 ， 但 也 不 经 意 地 将 PID 和 
会 话 名 称 放 在 一 起 。 因 此 我 们 不 得 不 放弃 使 用 split 函数 ， 而 且 通 过 正则 表达 式 匹 配 实现 。 我 
们 可 以 这 样 实现 ， 然 后 滤 除 会 话 名 称 和 编号 ， 因 为 两 者 都 会 为 输出 添加 数值 。 示 例 1-4 显示 
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Python 2 版 本 下 retasklist.py 的 最 终 版 本 。 


示例 1-4 4B DOS 环境 下 tasklist 命令 的 输出 (retasklist.py) 


这 里 的 脚本 使 用 一 个 正则 表达 式 和 £indall () 来 解析 Dos 环境 下 tasklist 命令 的 输出 , 但 是 仅仅 显示 感 兴趣 的 
数据 。 将 该 脚本 移植 到 Python 3 时 ,仅仅 需要 修改 print () 函数 。 


1 #!/usr/bin/env python 



































pl 

3 import os 
4 import re 
5 
6 


5 f = os.popen('tasklist /nh', 'r') 

7 for eachLine in f 

8 print re.findall( 

9 r'CNw.]-0: ([\w.J+)*)\s\s+C(\d+) \w+\s\s+¢\d+\s\s+C{\d, J+ K)', 
10 eachLine.rstripQ) 

l1 f.closeQ 

















如 果 运 行 这 个 脚本 ， 就 能 得 到 期 望 〈 已 截断 ) 的 输出 。 





Z:NcorepythonNchl»python retasklist.py 





] 

('System Idle Process', '0', '28 K')] 
('System', '4', '240 K')] 
('smss.exe', '708', '420 K')] 
('csrss.exe', '764', '5,016 K')] 
('winlogon.exe', '788', '3,284 K')] 
('services.exe', '836', '3,932 K')] 











ANS 











致 的 正则 表达 式 将 会 扫描 全 部 的 5 列 输出 字符 串 ， 仅 对 重要 的 数据 进行 分 组 : 命令 名 
称 、 命 令 相 应 的 PID， 以 及 该 命令 使 用 的 内 存 大 小 。 该 脚本 使 用 已 经 在 本 章 中 介绍 过 的 正则 
表达 式 的 很 多 特性 。 
显然 , 在 本 小 节 中 实现 的 全 部 脚本 只 向 用 户 显 示 输出 。 实 际 上 , 我 们 有 可 能 在 处 理 数据 ， 
并 将 数据 保存 入 数据 库 ， 使 用 得 到 的 输出 来 为 管理 层 生 成 报表 等 。 


1.5 ”更 长 的 正则 表达 式 示 例 


我 们 现在 将 浏览 一 个 深入 的 示 列 ， 它 以 不 同 的 方式 使 用 正则 表达 式 来 操作 字符 串 。 首 先 

是 一 些 实际 上 生成 用 于 操作 随机 数 〈 但 不 是 太 随机 ) 的 代码 。 示 例 1-5 展示 了 gendata.py， 这 

一 个 生成 数据 集 的 脚本 。 尽 管 该 程序 只 是 将 简单 地 将 生成 的 字符 串 集 显示 到 标准 输出 ， 但 
该 输出 可 以 很 容易 重 定 向 到 测试 文件 。 
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示例 1-5 








用 于 正则 表达 式 练习 的 数据 生成 器 (gendata.py) 























该 脚本 为 正则 表达 式 练习 创建 随机 数据 ， 然 后 将 生成 的 数据 输出 到 屏幕 。 要 将 该 程序 移植 到 Python 3， 仅 需要 将 
print 语句 修改 为 函数 ， 将 xrange () 函数 修改 为 range ()， 以 及 将 sys .maxint 修改 为 sys .maxsize。 


1 #!/u 
2 

3 from 
4 from 
5 from 
6 from 
7 

8 tlds 
9 

10 for 
11 

12 

13 

14 

15 

16 

17 

18 








sr/bin/env python 


random import randrange, choice 
string import ascii lowercase as lc 
sys import maxint 


time import ctime 

- ('com', 'edu', 'net', 'org', 'gov') 

i in xrange(randrange(5, 11)): 
dtint = randrange(maxint) # pick date 
dtstr - ctime(dtint) # date string 

llen = randrange(4, 8) # login is shorter 
login = ''.join(Cchoice(1c) for j in range(1llen)) 
dlen = randrange(llen, 13) # domain is longer 
dom = ''.join(choice(lc) for j in xrange(dlen)) 


print '%s::%s@%s.%s::%d-%d-%d' % (dtstr, login, 
dom, choice(tlds), dtint, llen, dlen) 











该 脚本 生成 拥有 三 个 字段 的 字符 串 ， 由 一 对 冒号 或 者 一 对 双 冒 号 分 隔 。 第 一 个 字段 是 随 
WL (32 位 ) 整数 , 该 整数 将 被 转换 为 一 个 日 期 。 下 一 个 字段 是 一 个 随机 生成 的 电子 邮件 地 址 。 





最 后 一 个 字段 是 









































个 由 单 横 线 〈-) 分 隔 的 整数 集 。 














运行 这 段 代码 , 我 们 将 获得 以 下 输出 (读者 将 会 从 此 获 益 左 多 )， 并 将 该 输出 在 本 地 男 存 


为 redata.txt 文件 。 








Thu Jul 22 19:21:19 2004::izsp@dicqdhytvhv.edu::1090549279-4-11 
Sun Jul 13 22:42:11 2008::zqeu@dxaibjgkniy.com: :1216014131-4-11 





Tue Apr 1 


5 16:36:23 1990::fclihw@alwdbzpsdg.edu: :641950583-6-10 
5 17:46:04 2007::uzifzf8dpyivihw.gov::1171590364-6-8 
6 19:08:59 2036::ugxf£ugt8 jkhughs.net::2098145339-71-7] 
0 01:04:45 2012::zkwaq8rpxwmtikse.com::1334045085-5-10 








读者 或 者 可 能 会 辨别 出 来 , 但 是 来 自 该 程序 的 输出 是 为 正则 表达 式 处 理 做 准备 的 。 后 续 将 逐 
行 解释 ， 我 们 将 实现 一 些 正则 表达 式 来 操作 这 些 数据 ， 以 及 为 本 章 末 尾 的 练习 留 下 很 多 内 容 。 


逐 行 解释 


第 1 一 6 行 


在 示例 脚本 中 ， 需 要 使 用 多 个 模块 。 由 于 多 种 原因 ， 尽 管 我 们 小 心 终 性 地 避免 使 用 






































from-import 语句 (例如 , 很 容易 判断 一 个 函数 来 自 哪个 模块 , DJ 可 能 导致 本 地 模块 冲突 等 )， 
我 们 还 是 选择 从 这 些 模块 中 仅 导 入 特定 的 属性 ， 来 帮助 读者 仅 专注 于 那些 属性 ， 以 及 缩短 每 


行 代 码 的 长 度 。 





























第 8 行 
tlds 是 一 组 高 级 域名 集合 ， 当 需要 随机 生成 电子 邮件 地 址 时 ， 就 可 以 从 中 随机 选 出 一 个 。 


第 10~124F 
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每 次 执行 gendatapy， 就 会 生成 第 5 行 和 第 10 行 之 间 的 输出 (该 脚本 对 于 所 有 需要 随机 整数 


的 场景 都 使 用 random.randrangeO Kt). HJ 
[sys.maxint]) 中 的 随机 整数 ， 然 后 使 
时 间 和 大 多 数 基 于 POSIX 的 计算 机 一 样 ， 两 者 都 使 
格林 威 治 时 间 的 午夜 。 如 果 我 们 选择 一 个 
最 大 可 能 时 间 CHI epoch 后 的 222 秒 ) 之 间 的 某 个 时 刻 。 


年 1 月 1 
































] time.ctimeO 函 数 将 该 整数 转换 为 


每 一 行 ， 我 们 选取 所 有 可 能 范 















































第 13~16 íF 


伪造 邮件 地 址 的 登录 名 长 度 为 4 一 7 
在 一 起 , 需要 随机 选择 4—7 个 小 写字 母 , 将 所 有 字母 逐个 连接 成 一 个 字符 串 。random.choiceO 
PR Bic HY) DY Ae Hb 





个 字符 〈 因 





















































此 使 











个 序列 ， 然 后 返回 





ti 是 接受 











该 序列 中 的 一 个 随机 元 素 。 在 


string.ascii lowercase 是 字母 表 中 拥有 26 个 小 写字 母 的 序列 集合 。 


我 们 决定 
再 一 次 使 用 随机 的 小 写字 母 ， 逐 个 字母 来 组 合 这 个 名 字 。 
5$ 17—18 íF 
该 脚本 的 关键 部 分 就 是 将 所 有 随机 数据 放 入 输出 行 。 
各 所 有 电子 
在 最 终 的 双 





长 。 


然后 ; 
起 。 


























伪造 电子 邮件 地 址 的 主 域名 长 度 


























邮件 地 址 通过 登录 名 、 








* (à) 








» Ae TA 


符号 、 





IN Be bts. 


DIT. 





不 能 多 于 12 


但 是 至 少 和 登录 名 一 样 


围 (0 231 





HH. Python 中 的 系统 
IM “epoch” FSHI epoch 是 指 1970 
32 位 整数 ， 那 么 该 整数 将 表示 从 epoch 到 


randrange(4，8))。 为 了 将 它们 放 


该 示例 中 ， 








PS Ave oa 


TT» 





先是 数据 






































冒号 之 后 ， 我 们 将 使 











1.5.1 


对 于 后 续 的 练习 ， 为 正则 表达 式 
中 测试 这 
gendata.py 生成 的 数据 )。 当 做 练习 昌 
在 将 正则 表达 式 放 入 应 


匹配 字符 串 





用 于 表示 初始 时 间 的 随机 数字 符 串 (日 期 字符 
面 跟着 登录 名 和 域名 的 长 度 ， 所 有 这 些 都 由 一 个 连 字 符 分 隔 。 








创建 宽松 


1€ 




















些 正则 表达 式 ， 该 应 用 利 



































中 之 前 











redata.txt 中 的 一 个 示例 行 赋 给 字符 串 变量 data 


日 AME, 
FE rf Œo 











Ach 


第 一 个 示例 中 ， 我 们 将 创建 一 个 正则 表达 式 来 提取 (仅仅) 数据 文人 
行 时 间 截 





>>> import re 


和 约束 性 的 版 本 。 建 议 读者 在 一 个 简短 的 应 用 
前 所 展示 的 示例 文件 redata.txt( 或 者 使 
和 时， 读者 将 需要 
， 为 了 测试 正 由 
































次 使 用 该 数据 。 

















。 如 下 所 示 ， 这 些 语句 








然后 





是 分 隔 符 。 














域名 和 一 个 随机 选择 的 高 级 域名 组 合 在 一 


$), 后 















































通过 运行 





IRER, RIEA re 模块 ， 然 后 将 
在 所 有 展示 的 示例 中 都 


>>> data = 'Thu Feb 15 17:46:04 2007::uzifzfGdpyivihw.gov::1171590364-6-8' 
































一 周 的 几 天 。 我 们 将 使 用 下 面 的 1 


"^Mon|^Tue |^ÀWed | ^rhu | ^Fri |^sat |^sun" 























则 表达 式 。 


E redata.txt 中 每 一 
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题 














该 示例 需要 字符 串 以 列 出 的 7 个 字符 串 中 的 各 
如 果 我 们 将 该 正 贝 


“Tue”, . 

















换 句 话 














蔡 换 所 有 脱 字符 。 


开始 就 使 用 的 “友好 的 ”正则 表达 式 版 本 ， 该 版 本 并 没有 使 用 圆 
改过 的 正则 表达 式 版 本 中 ， 可 以 以 子 组 的 方式 来 访问 


>>> patt = '*(Mon|Tue|Wed|Thu|Fri|sa 


All 





的 环境 





E 则 表达 式 的 一 部 分 提供 
之 处 ， 即 使 这 些 字符 并 不 是 
以 上 两 个 正则 表达 式 都 是 非常 严格 的 ， 尤 其 是 要 求 一 个 字符 串 集 。 这 可 能 在 一 个 国 
因为 所 在 的 环境 中 会 使 用 当 
表达 式 将 为 : Aw{3}。 该 正则 表达 式 仅 仅 需 要 一 个 以 三 个 
再 一 次 ， 将 正则 表达 式 转换 为 正常 的 自然 语言 : 脱 字符 ^ 表 示 “ 
字母 数字 字符 ，{3} 表 示 将 会 有 3 个 连续 的 正则 表达 式 副本 , 这 里 使 ) 
再 一 次 ， 如 果 想 要 分 组 ， 就 必须 使 用 贺 





"^ (Mon | Tue [Wed | Thu | 








说 ， 如 果 按 照 如 下 所 示 的 方式 对 日 期 字符 


Fri Sat | Sun)" 








F 意 一 个 开头 〈“^” 正 则 表达 式 中 的 脱 字 符 )。 
I 表达 式 “ 翻 译 ” 成 自然 语言 ， 读 起 来 就 会 像 这 样 :“ 字 符 串 应 当 以 “Mon”， 
me “Sat” 或 者 * Sun" 开头 。 























括 住 字符 串 集 的 贺 


括号 




















>>> m = re.match(patt, data) 


>>> m.group() 
'Thu' 

>>> m.group (1) 
'Thu' 

>>> m.groups () 
('Thu',) 


我 们 在 该 示例 所 实现 的 

















是 : moles pn 


忌 、 Hs 





额外 数据 来 实现 字符 串 


尔 所 感 兴 
































并 不 能 良好 地 工作 ， 











>>> patt = '^(\w{3} 
>>> m = re.match(pa 


>>> if m is not Non 


'Thu' 
>>> m.group(1) 


'Thu' 


TEM EA ^w) (3 


Lom 
Ei. 


Y 











all 





的 一 个 将 会 有 一 次 成 功 











串 分 组 ， 我 们 就 可 以 使 ) 











j 一 个 脱 字 符 来 








匹配 。 这 是 我 们 一 



































匹配 字符 串 。 





t [Sun) ' 
entire match 


subgroup 1 


subgroups 














括号 。 如 下 所 示 ， 在 这 个 修 





之 个 特性 可 能 看 起 来 并 不 是 革命 性 的 ， 但 是 在 下 一 个 示例 或 者 作 








匹配 操作 的 任何 地 方 ， 





趣 字 符 的 一 部 分 。 


























地 的 日 期 和 缩写 。 


局 确定 有 它 的 独到 











际 化 


一 个 宽松 的 正则 








连续 字母 数字 字符 开头 的 字符 囊 。 



































)' 
tt, data) 


e: m.group() 


} 古 错误 的 。 当 {3} 在 














Aas 
然后 表示 为 一 个 分 组 。 但 是 如 果 将 {3} 移 到 外 部 ， 它 就 等 效 了 





























括号 ， 例 如 ^(Cw{3))。 





EJER”, Nw 表示 任意 单个 
j{3} 来 修饰 正则 表达 式 。 























时 , 先 











匹配 三 个 连续 的 字母 数字 字符 ， 














三 个 连续 的 单个 字母 数字 字符 。 








第 1 章 正则 表达 式 37 





>>> patt = '^(Nw)(3)' 
>>> m = re.match(patt, data) 


>>> if m is not None: m.group() 


'Thu' 
>>> m.group(1) 

当 我 们 访问 子 组 1 时, 出现 字母 “u” 的 原因 是 子 组 1 持续 被 下 一 个 字符 蔡 换 。 换 句 话说 ， 
m.group(1) 以 字母 “T” 作 为 开始 ， 然 后 变 为 “h”， 最 终 被 蔡 换 为 “”。 这 些 是 单个 字母 数字 
PRISM GRABLE) 分 组 ， 与 一 个 包含 三 个 连续 字母 数字 字符 的 单独 分 组 相反 。 

在 下 一 个 《而 且 是 最 后 ) 的 示例 中 ， 我 们 将 创建 一 个 正则 表达 式 来 提取 redata.txt 每 一 行 
的 末尾 所 发 现 的 数字 字段 。 


15.2 ”搜索 与 匹配 …… 还 有 贪 楚 


然而 ， 在 创建 任何 正则 表达 式 之 前 ， 我 们 就 意识 到 这 些 整 数 数据 项 位 于 数据 字符 串 的 末 
尾 。 这 就 意味 着 我 们 需要 选择 使 用 搜索 还 是 匹配 。 发 起 一 个 搜索 将 更 易于 理解 ， 因 为 我 们 确 
切 知道 想 要 查找 的 内 容 ( 包 含 三 个 整数 的 数据 集 ), 所 要 查找 的 内 容 不 是 在 字符 串 的 起 始 部 分 ， 
也 不 是 整个 字符 串 。 如 果 我 们 想 要 实现 匹配 ， 就 必须 创建 一 个 正则 表达 式 来 匹配 整个 行 ， 然 
后 使 用 子 组 来 保存 想 要 的 数据 。 要 展示 它们 之 间 的 差别 ， 就 需要 先 执行 搜索 ,然后 实现 匹配 ， 
以 展示 使 用 搜索 更 适合 当前 的 需要 。 
因为 我 们 想 要 寻找 三 个 由 连 字 符 分 隔 的 整数 ， 所 以 可 以 创建 自己 的 正则 表达 式 来 说 明 这 
一 需求 : \d+-\d+-\d+。 该 正则 表达 式 的 含义 是 ,“ 任 何 数 值 的 数字 至 少 一 个 ) 后 面 跟着 一 个 
连 字 符 ， 然 后 是 多 个 数字 、 男 一 个 连 字 符 ， 最 后 是 一 个 数字 集 。” 我 们 现在 将 使 用 search() 来 
测试 该 正则 表达 式 : 

>>> patt = '\d+-\d+-\d+' 


>>> re.search(patt, data).group() # entire match 
'1171590364-6-8' 


一 个 匹配 尝试 失败 了 ， 为 什么 呢 ? 因为 匹配 从 字符 串 的 起 始 部 分 开始 ， 需 要 被 匹配 的 数 
值 位 于 字符 串 的 末尾 。 我 们 将 不 得 不 创建 另 一 个 正则 表达 式 来 匹配 整个 字符 串 。 但 是 可 以 使 
惰性 匹配 ， 即 使 用 “.+” 来 表明 一 个 任意 字符 集 跟 在 我 们 真正 感 兴趣 的 部 分 之 后 。 

patt = '.+\d+-\d+-\d+' 
>>> re.match(patt, data).group() # entire match 
'Thu Feb 15 17:46:04 2007::uzifzf8dpyivihw.gov::1171590364-6-8"' 

该 正则 表达 式 效果 非常 好 ， 但 是 我 们 只 想 要 末尾 的 数字 字段 ， 而 并 不 是 整个 字符 呈 

此 不 得 不 使 用 圆 括号 对 想 要 的 内 容 进 行 分 组 。 
























































































































































































































































































































































pun 
EH 


























Td 
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Z| 





>>> patt = '.+(\d+-\d+-\d+)' 
>>> re.match (patt, data) .group (1) # subgroup 1 
"4-6-8! 


发 生 了 什么 ?我 们 将 提取 1171590364-6-8, 而 不 仅仅 是 4-6-8。 第 一 个 整数 的 其 余部 分 在 哪 
JL? 问题 在 于 正则 表达 式 本 质 上 实现 贪 林 匹配。 这 就 意味 着 对 于 该 通配符 模式 ,将 对 i 
式 从 左 至 右 按 顺序 求 值 ， 而 且 试图 获取 匹配 该 模式 的 尽 可 能 多 的 字符 。 在 之 前 的 示例 中 ， 使 用 


















































E 则 表达 


“.+” 获 取 从 字符 串 起 始 位 置 开始 的 全 部 单个 字符 ， 包 括 所 期 望 的 第 一 个 整数 字段 。\d+ 仅 仅 需 
要 一 个 数字 ， 因 此 将 得 到 “4”， 其 中 .+ 匹配 了 从 字符 串 起 始 部 分 到 所 期 望 的 第 一 个 数字 的 全 部 



































内 容 : “Thu Feb 15 17:46:04 2007::uzifzf@dpyivihw.gov::117159036”， 如 图 1-2 所 示 。 





Thu Feb 15 17:46:04 2007: :uzifzf@dpyivihw.gov: :117159036}4 





et d+-\d+-\d+ 





+ 是 一 个 贪 桂 的 操作 符 











DS 


1-2 为 什么 匹配 出 错 了 : + 是 一 个 贪 禁 操作 符 

















其 中 的 一 个 方案 是 使 用 “ 非 贪 焚 ”操作 符 “?”。 读 者 可 以 在 “*” “+” 或 者 “?” 之 后 使 
用 该 操作 符 。 该 操作 符 将 要 求 正 则 表达 式 引 警 匹 配 尽 可 能 少 的 字符 。 因 此 ， 如 果 在 “.+” 之 




















后 放置 一 个 “?”， 我 们 将 获得 所 期 望 的 结果 ， 如 图 1-3 所 示 。 


>>> patt = '.+?(\d+-\d+-\d+)' 
>>> re.match (patt, data) .group (1) # subgroup 1 
171590364-6-8' 











\d+-\d+-\d+ 





“?” 要 求 非 贪 焚 操 作 


Thu Feb 15 17:46:04 2007: :uzifzf@dpyivihw.gov: :/1171590364-6-8 











图 1-3 ”解决 贪 焚 匹 配 的 问题 :“?” 表 示 非 贪 焚 匹配 











另 一 个 实际 情况 下 更 简单 的 方案 ， 就 是 把 “::” 作 为 字段 分 隔 符 。 读 者 可 以 仅仅 使 有 























HIE 


则 字符 串 stripC:: ) 方 法 获取 所 有 的 部 分 ， 然 后 使 用 strip -)1E2953 ARRIT SUBEUESA 

















取 最 初 想 要 查询 的 三 个 整数 。 现 在 ， 我 们 不 想 先 选择 该 方案 ， 因 为 这 就 是 我 们 如 何 将 字符 串 





H 





放 在 一 起 ， 























>> 
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以 使 用 gendata.py 作为 开始 ! 








最 后 一 个 示例 : 假定 我 们 仅 想 取 出 三 个 整数 字段 中 间 的 那个 整数 。 如 下 所 示 ， 这 就 是 实现 的 
方法 〈 使 用 一 个 搜索 ， 这 样 就 不 必 号 配 整个 字符 串 ) -Cd+)-。 尝 试 该 模式 ， 将 得 到 以 下 内 容 。 








> patt = '-(\d+)-' 


>>> m = re.search(patt, data) 


>>> m.group () 


# entire match 


'_6-' 


>>> m.group (1) 


# subgroup 1 


"6! 


本 章 几 乎 没有 涉及 正则 表达 式 的 强大 功能 ， 在 有 限 的 篇 幅 里 面 我 们 不 可 能 做 到 。 然 而 ， 
我 们 希望 已 经 向 读者 提供 了 足够 有 用 的 介绍 性 信息 ， 使 读者 能 够 掌握 这 个 强 有 力 的 工具 ， 并 




















Hd 


































































































融入 到 自己 的 编程 技巧 里 面 。 建 议 读者 阅读 参考 文档 以 获取 在 Python 中 如 何 使 用 正则 表达 式 




























































































的 更 多 细节 。 对 于 想 要 更 深入 研究 正则 表达 式 的 读者 ， 建 议 阅 读 由 Jeffrey E. F. Friedl. 编 写 的 


Mastering Regular Expressions. 


1.6 练习 


正则 表达 式 。 按 照 练 习 1-1~~ 1 -12 的 要 求 创建 正则 表达 式 。 


1-1 
1-2 
1-3 
1-4 
1-5 





RAW: "bat". “bit”, “but”, “hat”, “hit” Ef “hut”. 
匹配 由 单个 空格 分 隔 的 任意 单词 对 ， 也 就 是 姓 和 名 。 

匹配 由 单个 逗号 和 单个 空白 符 分 隔 的 任何 单词 和 单个 字母 ， 如 姓氏 的 首 字母 。 
匹配 所 有 有 效 Python 标识 符 的 集合 。 
根据 读者 当地 的 格式 ， 匹 配 街道 地 址 〈 使 你 的 正则 表达 式 足 够 通用 ,来 匹配 任意 数 


























































































































量 的 街道 单词 ,包括 类 型 名 称 )。 例 如 ， 美 国 街道 地 址 使 用 如 下 格式 : 1180 Bordeaux 























Des. 使 你 的 正则 表达 式 足 够 灵活 ， 以 支持 多 单词 的 街道 名 称 ， 如 3120 De la Cruz 


Boulevard. 


1-7 
1-8 
1-9 
1-10 
1-11 





POAC LA “www” 起 始 且 以 “.com” 结 尾 的 简单 Web 域名 ; 例如 ，www:Wwww. yahoo.com/. 
选 做 题 : 你 的 正则 表达 式 也 可 以 文 持 其 他 高 级 域名 ， 如 .edu、net 等 (例如 ， 


http://www.foothill.edu )。 

匹配 所 有 能 够 表示 Python 整数 的 字符 串 集 。 
配 所 有 能 够 表示 Python 长 整数 的 字符 串 集 。 
配 所 有 能 够 表示 Python 浮 点 数 的 字符 串 集 。 


匹配 所 有 能 够 表示 Python 复数 的 字符 串 集 。 


匹配 所 有 能 够 表示 有 效 电子 邮件 地 址 的 集合 〈 从 一 个 宽松 的 正则 表达 式 开 始 ， 然 
尝试 使 它 尽 可 能 严谨 ， 不 过 要 保持 正确 的 功能 )。 





C 








a [A 



















































































40 第 1 部 分 通用 应 用 主题 


























1-12 匹配 所 有 能 够 表示 有 效 的 网 站 地 址 的 集合 
能 严谨 ， 不 过 要 保持 正确 的 功能 )。 





然后 尝试 使 它 尽 可 


1-13. type)» 内 置 函数 type0 返 








类 型 的 字符 串 。 
>>> type (0) 
type 'int'» 
>> type(.34) 
type 'float'» 


V^ 


V^ 


>> type (dir) 


Q A 
































type 'builtin function or method'» 


j 建 一 个 能 够 从 字符 串 中 提取 实际 类 型 名 称 的 正则 表达 式 。 函 数 将 对 类 似 于 <type 














(URL)( 从 一 个 宽松 的 正则 表达 式 开始 ， 


回 一 个 类 型 对 象 , 如 下 所 示 , 该 对 象 将 表示 为 一 个 Pythonic 





nt > 的 字符 串 返 回 int〈 其 他 类 型 也 是 如 此 ， 如 'float ~ 'builtin function or method' 等 )。 





TER: 你 所 实现 的 值 将 存 入 类 和 一 些 内 置 类 型 的 _name_ 属 














1-14 ”处 理 日 期 ,1.2 节 提 供 了 来 匹配 单个 或 者 两 个 数 

















i 


SH 























性 中 。 








的 正则 表达 式 模式 ,来 表示 1 一 


9 的 月 份 (0?[1-9])。 创 建 一 个 正则 表达 式 来 表示 标准 日 历 中 剩余 三 个 月 的 数字 。 
1.2 节 还 提供 了 一 个 能 够 匹配 信用 卡 〈CC) 号 码 ([0-9]{15,16)})) 





1-15 ”处 理 信 用 卡号 码 。 
的 正则 表达 式 模式 



































。 然 而 ， 该 模式 不 允许 使 用 连 字 



































符 来 分 割 数字 块 。 创 建 一 个 允 




















许 使 用 连 字符 的 正则 表达 式 ， 但 是 仅 能 用 于 正确 的 位 置 。 例 如 ，15 位 的 信用 卡号 
码 使 用 4-6-5 的 模式 ， 表 明 4 个 数字 - 连 字 符 -6 个 数字 - 连 字符 -5 个 数字 ; 16 位 的 














信用 卡号 码 使 用 4-4-4-4 的 模式 。 记 住 ， 要 对 整 






































个 字符 串 进 行 合 适 的 











分 组 。 选 做 题 ; 





















































使 


— 


























] 卡 号 码 。 























| gendata.py。 下 面 一 组 练习 (1-16~1-27) 专门 处 理由 gendata.py 








有 一 个 判断 信用 卡号 码 是 否 有 效 的 标准 算法 。 编 写 一 些 代 码 ， 这 些 代码 不 但 能 够 
识别 具有 正确 格式 的 号 码 ， 而 且 能 够 识别 有 效 的 信 | 





生成 的 数据 。 


和 尝试 练习 1-17 和 1-18 之 前 ， 读 者 需要 先 完成 练习 1-16 以 及 所 有 正则 表达 式 。 
1-16 为 gendata.py 更 新 代码 ， 使 数据 直接 输出 到 redata.txt 而 不 是 屏幕 。 


1-17 判断 在 redata.tex 中 一 周 





























的 年 份 中 每 个 月 























出 现 的 次 数 )。 





1-18 通过 确认 整数 字段 











中 的 第 一 个 整数 匹配 在 每 个 输 晶 











redata.txt 中 没有 数据 损坏 。 








创建 以 下 正则 表达 式 。 

















1-19 ”提取 每 行 中 完整 的 


i it. 























1-20 ”提取 每 行 中 完整 的 
1-21 仅仅 提取 时 间 惟 中 


电子 邮件 地 址 。 
的 月 份 。 





的 每 一 天 出 现 的 次 数 〈 换 名 总 












































说， 读者 也 可 以 计算 所 选择 











了 起 始 部 分 的 时 


AR 
H1 


FRE, MRE 


1-22 
1-23 
1-24 
1-25 
1-26 
1-27 




















































































































仅仅 提取 时 间 戳 中 的 年 份 。 

仅仅 提取 时 间 惟 中 的 时 间 (HH:MM:SS)。 
仅仅 从 电子 邮件 地 址 : 

仅仅 从 电子 邮件 

从 时 间 截 中 提取 月 、 日 和 年 ， 








它 匹 配 电话 号 码 ， 











1-29 


1-31 


1-32 














处 理 电话 号 码 。 对 于 练习 1-28 和 1-29, El 




















(Bii fes 




















F 可 选 的 区 号 作为 前 级 。 


128 区 号 (三 个 整数 集合 中 的 第 一 部 分 和 后 面 的 连 字 符 
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提取 登录 名 和 域名 (包括 主 域名 和 高 级 域名 一 起 提取 )。 
岂 址 中 提取 登录 名 和 域名 (包括 主 域名 和 高 级 域名 )。 

使 用 你 的 电子 邮件 地 址 蔡 换 每 一 行 数据 中 的 电子 邮件 地 址 。 
然后 以 “月 ， 日 ， 年 ”的 格式 ， 每 一 行 仪 仪 近 代 一 次 。 


顾 1.2 节 介 绍 的 正则 表达 式 d{3}-\d{3}-d{4}， 























更 新 正 由 























表达 式 应 当 匹 配 800-$$$-1212， 也 能 匹配 555-1212. 








支持 使 用 








正则 表达 式 应 用 程序 。 下 


生成 HTM 


行 方式 提供 、 




















和 练习 在 处 


上 表达 式 ， 使 它 满足 以 下 条 件 。 
) EER, 











是 说 ， 





E 则 








圆 括号 或 者 连 字 符 连 接 的 区 号 〈 更 不 用 说 是 可 选 的 内 容 ); 使 正则 表达 式 
匹配 800-555-1212. 555-1212 WR (800) 555-1212. 























里 在 线 数据 时 生成 了 有 ) 








的 应 




















L. 





提供 一 个 链接 列表 〈 以 及 可 选 的 简短 描述 )， 无 论 ) 


j 程 序 脚本 。 















































通过 来 自 于 其 





Web 页 面 

















该 页 




















览 器 中 查看 





> RF) 














AIHER, H 
tweet 精简 o 
创建 一 个 函 
后 返回 




















RT 符号 、 前 导 的 “.” 














使 | 





























Zr 


^p 





他 脚 
贡 包 含 作 为 超 文本 锚 点 的 所 有 链接 ， 它 可 
户 单 击 这 些 链接 ， 然 后 访问 相应 的 站 点 。 如 果 提 供 了 简短 
j 该 描述 作为 超 文本 而 不 是 URL. 
有 时 候 你 想 要 查看 由 Twitter } 
字符 串 ， 
以 及 所 有 # 号 标签 。 如 果 元 标记 为 True， 就 返 蕊 











本 的 输入 ， 还 是 来 自 于 数据 库 ， 





ba 





























即 移 除 所 有 无 关 信息 ， 例 如 ， 














通过 命令 
都 生成 一 个 
以 在 Web 浏 





] P RIŽ F| Twitter 服务 的 tweet 纯 文 本 。 
数 以 获取 tweet 和 一 个 可 选 的 “元 ”标记 ， 该 标记 默认 为 False， 然 
一 个 已 精简 过 的 tweet 


表示 转 推 的 























个 包含 元 数据 的 字典 。 这 可 以 包含 一 个 键 “RT”， 其 相应 的 值 是 转 扩 


户 的 字符 串 元 组 和 /或 一 个 键 “# 号 标签 ”包含 一 个 # 号 标签 元 组 )。 如 果 
空 元 组 )， 就 不 要 为 此 创建 一 个 


f£ ( 
亚马逊 爬虫 
还 上 的 表现 
任 








书 排名 ， 例 











脚本 。 创 建 一 个 
(或 者 能 够 追踪 图 














如 德国 〈.de)、 法 




















使 用 正则 

















该 消息 的 用 

















HERH. 

















他 国 





























家 的 站 点 上 相 
AS (jp). FPE Cen) 和 英国 .co.uk)。 


值 不 存 


脚本 ， 帮 助 你 追踪 你 最 喜欢 的 书 ， 以 及 这 些 书 在 亚 马 
书 排 名 的 任何 其 他 的 在 线 书 店 )。 例 如 ， 亚 马 
可 一 本 图 书 提供 以 下 链接 : http://amazon.com/dp/ISBN( 例 如, http://amazon.com/ 
dp/0132678209)。 读 者 可 以 改变 域名 ， 检 查 亚马逊 在 其 
国 Cfr. 





ABT 








同 的 图 








达 式 或 者 标记 解析 器 ， 例 如 BeautifulSoup. Ixml 或 者 html5lib 来 解析 











排名 ， 然 后 
含 在 一 个 电 
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j 户 传 入 命令 行 参 数 ， 指 明 输 出 

















子 邮 件 正文 中 ， 还 是 























是 否 应 当 在 一 个 纯 文 本 
JF Web 的 格式 化 HTML 中 。 











， 也 许 包 
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所 以 ， 出 路 就 是 IPv6。 你 们 都 知道 ， 我 们 几乎 用 尽 了 IPv4 地 址 空间 。 对 此 我 感到 有 点 
REID, AAR RAS 32 位 IP 地 址 足够 因特网 实验 使 用 的 那个 人 。 我 唯一 能 够 辩驳 的 是 ， 
当时 是 在 1977 年 做 出 的 那个 选择 ,并 且 当 时 我 认为 它 仅 仅 是 一 个 实验 。 然而， 问题 是 这 个 实 
验 并 没有 结束 ， 所 以 我 们 才 陷 入 了 这 个 困境 。 

— Vint Cerf, 2011 年 1 月 ” 
( Æ linux.conf.au 会 议 上 口述 ) 

本 章 内 容 : 

。 简介 ; 

© 客户 端 /服务 器 架构 ; 

e 套 接 字 : 通信 端点 ; 

e Python 中 的 网 络 编程 ; 

e *SocketServer 模块 ; 

e *Twisted 框架 介绍 


。 相关 模块 。 



































”通过 网 址 http:/www.educause.edu/EDUCAUSE+Review/EDUCAUSEReviewMagazineVolume39/Musing 


sontheInternetPart2/157899 回 到 2004 年 。 

















2.1 简介 






































有 关 网 络 编程 的 
的 一 些 模 块 来 创建 网 络 应 用 程序 。 


2.20 ”客户 端 /服务 器 架构 
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本 节 将 简要 介绍 使 用 套 接 字 进行 网 络 编程 的 知识 。 然 而 ， 在 深入 研究 之 前 ， 将 介绍 一 些 
背景 信息 ， 以 及 套 接 字 如 何 应 用 于 Python 之 中 ， 然 后 展示 如 何 使 用 Pyth 
































以 及 描述 的 是 软件 还 是 硬件 系统 。 在 这 两 种 情况 


















































on 


什么 是 客户 端 /服务 器 架构 ? 对 于 不 同 的 人 来 说 ， 它 意味 着 不 同 的 东西 ， 这 取决 于 你 问 谁 
的 任何 一 种 下 ， 前 提 都 很 简单 :服务 器 就 


是 一 系列 硬件 或 软件 ， 为 一 个 或 多 个 客户 端 (服务 的 用 户 ) 提供 所 需 的 “服务 ” 它 存在 唯一 
目的 就 是 等 待 客户 端的 请 求 ， 并 响应 它们 提供 服务 )， 然 后 等 等 更 多 请 求 。 
男 一 方面 ， 客 户 端 因 特 定 的 请 求 而 联系 服务 器 ， 并 发 送 必要 的 数据 ， 然 后 等 待 服务 器 的 













































































时 间 后 可 能 会 再 次 发 出 其 他 请 求 ， 但 这 些 都 被 当 作 不 同 的 


























事务 。 























目前 最 常见 的 客户 端 / 服 务 器 架构 如 图 2-1 所 示 , 其 中 








绘 了 一 个 用 户 或 客户 端 计算 机 通 











特 网 从 一 台 服 务 器 上 检索 信息 。 尽管 这 样 的 系统 确实 是 














aH 











个 客户 端 /服务 器 架构 的 例子 , 但 














是 唯一 的 情况 。 此 外 ， 客 户 端 /服务 器 架构 既 可 以 应 用 于 i 





十 算 机 硬件 ， 也 可 以 应 用 于 软件 。 














图 2-1 因特网 上 客户 端 /服务 器 系统 的 


2.2.1 硬件 客户 端 / 服 务 器 架构 






































型 概念 图 




















打印 (打印 机 〉 服 务 器 是 硬件 服务 器 的 一 个 例子 。 它 们 处 理 传 入 的 打印 作业 并 将 其 发 

















给 系统 中 的 打印 机 (或 其 他 的 打印 设备 )。 这 样 的 计算 机 通常 可 以 通过 网 络 进 行 访问 , 并 且 






































回应 ， 最 后 完成 请 求 或 给 出 故障 的 原因 。 服 务 器 无 限 地 运行 下 去 ， 并 不 断 地 处 理 请 求 ， 而 客 
户 端 会 对 服务 进行 一 次 性 请 求 ， 然 后 接收 该 服务 ， 最 后 结束 它们 之 间 的 事务 。 客 户 端 在 一 段 


过 
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Fm 





网 络 上 ， 那 么 出 











机 将 向 它 发 送 打 印 请 求 。 





























硬件 服务 器 的 另 一 个 例子 就 是 文件 服务 器 。 这 些 通常 都 是 拥有 庞大 通用 存储 容量 的 计算 
机 ， 可 以 被 客户 端 远 程 访问 。 客 户 端 计算 机 会 挂 载 服务 器 计算 机 上 的 磁盘 ， 看 起 来 好 像 这 个 
磁盘 就 在 本 地 计算 机 上 一 样 。 支 持 文件 服务 器 的 一 个 最 流行 的 网 络 操作 系统 就 是 Sun 公司 的 


























网 络 文件 系统 NFS )。 如 果 你 正在 访问 一 个 网 络 磁盘 驱动 器 ， 并 且 无 法 分 辨 它 是 在 本 地 还 是 
时 客户 端 /服务 器 系统 就 已 经 完成 了 它 的 任务 。 它 的 目标 就 是 让 用 户 得 到 与 访 
问 本 地 磁盘 完全 相同 的 体验 ， 抽 象 起 来 就 是 正常 的 磁盘 访问 ， 而 这 些 都 是 通过 编程 实现 来 确 























保 以 这 种 方式 进行 。 
2.2.2 ”软件 客户 端 /服务 器 架构 
软件 服务 器 也 运行 在 一 块 硬件 之 上 ， 但 是 没有 像 硬件 服务 器 那样 的 专用 外 围 设备 (如 打 


印 机 、 磁 盘 驱 动 器 等 )。 软 人 
或 其 他 类 型 的 编程 或 数据 操作 。 


新 ， 





HE 
fi 
































服务 器 提供 的 主要 服务 包括 程序 执行 、 数 据 传输 检索 、 聚 合 、 更 
































































































































































































































现在 一 个 更 常见 的 软件 服务 器 就 是 Web 服务 器 。 如 果 个 人 或 公司 想 要 运行 自己 的 Web 服务 




















那么 必须 拥有 一 台 或 多 ei 
























































机 , 在 上 面 安装 希望 提供 给 用 户 的 Web 页 面 和 Web 应 用 程序 ， 


























然后 启动 Web 服务 器 。 一 个 这 样 的 服务 器 的 工作 就 是 接受 客户 端 请 求 ， 并 向 (Web) 客户 端 ( 即 





























一 些 外 为 如 





器 是 硬件 服务 器 。 它 们 运行 在 
户 端 其 实 就 是 








] 户 计算 机 上 的 浏览 器 回 送 Web 页 面 ， 然 后 等 待 下 一 个 客户 端的 请 求 。 这 些 服务 器 一 旦 开启 ， 
都 将 可 能 永远 运行 。 虽 然 它 们 并 不 能 实现 这 一 目标 ， 但 是 它们 会 尽 可 能 长 时 间 地 运行 ， 除 非 受到 
使 才 会 停止 ， 如 显 式 地 关闭 ， 或 灾难 性 地 关闭 由 于 硬件 故障 )。 

数据 库 服务 器 是 另 一 种 类 型 的 软件 服务 器 。 它 们 接受 客户 端的 存储 或 检索 请 求 ， 响 应 请 
求 ， 然 后 等 待 更 多 的 事务 。 与 Web 服务 器 类 似 ， 它 们 也 是 永远 运行 的 。 























































































































我 们 将 讨论 的 最 后 一 类 软件 服务 器 就 是 窗 体 〈window) 服务 器 ， 几 乎 可 以 认为 这 些 服务 


















































界 

















体 月 


的 月 


机 的 窗 体 服务 器 作为 


及 务 器 ， 那 么 一 切 都 会 正常 。 











台 附 带 《〈 外 接 ) 显示 设备 (如 显示 器 ) 的 计算 机 上 。 窗 体 客 




















些 程序 ， 这 些 程序 需要 一 个 窗口 化 的 环境 来 运行 。 这 些 通常 被 当 作 图 形 用 户 
E (GUI) 应 用 程序 。 如 果 在 没有 窗 体 服务 器 的 情况 下 执行 它们 ， 也 即 意味 着 在 一 个 基于 
文本 的 环境 中 ， 如 DOS 窗口 或 一 个 UNIX shell 中 ， 那 么 将 无 法 启动 它们 。 一 旦 能 够 访问 窗 










































































程序 ， 而 将 它 显示 在 男 一 台 计 入 


银行 出 纳 员 作为 服务 器 吗 
想象 客户 端 /服务 器 架构 如 何 工 作 的 一 个 方法 就 是 ， 在 你 的 脑海 中 创建 一 个 画面 ， 那 就 是 


2.2.3 


























在 网 络 领域 ， 这 种 环境 会 变 得 更 加 有 趣 。 窗 体 客户 端 通常 的 显示 设备 就 是 本 地 计算 机 上 
有 务 器 ， 但 是 在 一 些 网 络 化 的 窗 体 环境 (如 XX Window 系统 ) 中 ， 也 可 以 选择 男 一 台 计 入 
个 显示 设备 。 在 这 种 情况 下 ， 你 就 可 以 在 一 台 计 算 机 上 运行 一 个 GUI 


















































机 上 ! 
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个 银行 出 纳 员 ， 他 既 不 吃 不 睡 ， 也 不 休息 ， 服 务 一 个 又 一 个 的 排队 客户 ， 似 乎 永远 不 会 结 
束 ( 见 图 2-2)。 这 个 队列 可 能 很 长 ， 也 可 能 空 无 一 人 ， 但 在 任何 给 定 的 某 个 时 刻 ， 都 可 能 会 
出 现 一 个 客户 ,当然 , 在 几 年 前 这 样 的 出 纳 员 完全 是 一 种 幻想 , 但 是 现在 的 自动 取 球 机 (ATM) 
似乎 比较 接近 这 种 模型 。 




























































































图 2-2 图 中 的 银行 出 纳 员 “永远 ”处 于 工作 状态 ， 为 客户 的 请 求 提 供 服 务 。 出 纳 员 运行 在 一 个 无 限 循环 中 ， 
不 断 地 接收 请 求 并 服务 客户 ， 然 后 返回 服务 或 等 待 另 一 位 客户 。 可 能 会 有 一 个 很 长 的 客户 队列 ， 也 可 能 队列 
中 空 无 一 人 。 但 在 任何 一 种 情况 下 ， 服 务 器 的 工作 都 永远 不 会 结束 





















































当然 ， 出 纳 员 就 是 一 个 运行 在 无 限 循环 中 的 服务 器 ， 而 每 个 客户 就 是 一 个 客户 端 ， 每 个 
客户 端 都 有 一 个 需要 解决 的 需求 。 这 些 客户 到 达 银 行 ， 并 由 出 纳 以 “ 先 来 先 服务 ”的 方式 处 
理 。 一 旦 一 个 事务 完成 ,客户 就 会 离开 ,而 出 纳 员 要 么 为 下 一 位 客户 服务 ,要么 坐 下 来 等 待 ， 
直到 下 一 位 客户 到 来 。 

为 什么 所 有 这 些 都 很 重要 呢 ? 因为 在 一 般 意 义 上 , 这 种 执行 风格 正 是 客户 端 /服务 器 架构 
的 工作 方式 。 既 然 现 在 你 已 经 有 了 基本 的 概念 ， 接 下 来 就 让 我 们 将 它 应 用 到 网 络 编程 上 ， 而 
网 络 编程 正 是 遵循 客户 端 /服务 器 架构 的 软件 模型 。 


2.2.4 “客户 端 /服务 器 网 络 编程 


在 服务 器 响应 客户 端 请 求 之 前 ， 必 须 进 行 一 些 初步 的 设置 流程 来 为 之 后 的 工作 做 准备 。 
首先 会 创建 一 个 通信 端点 ， 它 能 够 使 服务 器 监听 请 求 。 可 以 把 服务 器 比 作 公司 前 台 ， 或 者 应 
答 公司 主线 呼叫 的 总 机 接线 员 。 一 旦 电话 号 码 和 设备 安装 成 功 且 接 线 员 到 达 时 ， 服 务 就 可 以 
开始 了 。 





































































































































































































46 第 1 部 分 通用 应 用 主题 
这 个 过 程 与 网 络 世界 一 样 ， 一 旦 一 个 通信 端点 已 经 建立 ， 监 听 服 务 器 就 可 以 进入 无 限 循 
环 中 ， 等 待 客户 端的 连接 并 响应 它们 的 请 求 。 当 然 ， 为 了 使 公司 电话 接待 员 一 直 处 于 忙碌 状 












































态 ， 我 们 绝 不 能 忘记 将 
电话 过 来 ! 











惊异 























处 理 





23 BRF: 


播 或 进行 广告 


相似 地 ， 必 须 让 潜在 的 客户 知道 存在 这 样 的 服务 器 来 处 理 他 人 
永远 不 会 得 到 任何 请 求 。 想 象 着 创建 一 个 全 






































的 、 有 用 的 并 且 最 





























现在 你 已 经 非常 了 解 了 服务 器 是 如 何 工作 的 ， 这 就 已 经 解决 了 较 困 难 的 部 分 。 
服务 器 端 更 简单 ， 客 户 端 所 需要 做 的 只 是 创建 它 的 单 
连接 。 然 后 ， 客 户 端 就 可 以 发 出 请 求 ， 该 请 求 包括 任何 必要 的 数据 交换 。 一 旦 请 求 被 服务 器 









































BE 话 号 码 放 在 公司 信 签 、 




















， 且 客户 端 收 到 结果 或 某 种 胡 











通信 端点 





本 节 将 介绍 套 接 字 (socket), 给 出 

















有 关 其 起 源 的 一 些 背 景 知识 ， 





























告 或 一 些 新 闻 稿 上 ; 


否则 ， 
































何 访问 者 。 





将 没有 人 会 打 


和 的 需求 ， 否 则 ， 服 务 器 将 
全 新 的 网 站 ， 这 可 能 是 最 了 不 起 的 、 
此 的 网 站 ， 但 如 果 该 网 站 的 Web 地 址 或 URL 从 来 没有 以 任何 方式 广 
宣传 ， 那 么 永远 也 不 会 有 人 知道 它 ， 并 且 也 将 永远 不 会 看 到 人 有 


劲爆 的 、 令 人 









































角 认 信息 ， 此 次 通信 和 就 会 被 终止。 





客户 端 比 


通信 端点 ， 然 后 建立 一 个 到 服务 器 的 




















省 讨论 各 和 














类 型 的 套 接 字 。 


最 后 ， 将 讲述 如 何 利用 它们 使 运行 在 不 同 《〈 或 相同 ) 计算 机 上 的 进程 相互 通信 。 


2:9. 


类 型 


无 法 





字 。 套 接 字 最 初 是 为 同一 主机 上 的 应 ) 


进程 


UNIX 套 接 字 是 我 们 所 i 


1 jF 


£p 





























进行 通信 。 














套 接 字 的 起 源 可 以 追溯 到 20 世纪 70 4 
为 BSD UNIX) 的 一 部 分 。 





























PAR, 它 是 加 利 福 


















































HER: 



































) 与 男 一 个 运行 的 程序 进行 


















































并 且 拥 有 





























机 网 络 数据 结构 ， 它 体现 了 上 节 中 所 描述 的 “通信 端点 ”的 概念 。 在 任何 


的 通信 开始 之 前 ， 网 络 应 用 程序 必须 创建 套 接 字 。 可 以 将 它 人 电话 揪 孔 ， 没 有 它 将 





已 亚 大 学 的 伯 殉 利 版 本 UNIX K 
因此 ， 有 时 你 可 能 会 听 过 将 套 接 字 称 为 伯克利 套 接 字 或 BSD 套 接 
j 程 序 所 创建 ， 使 得 主机 上 运行 的 一 个 程序 〈 又 名 一 个 
通信 。 这 就 是 所 谓 的 进程 间 通 
IPC)。 有 两 种 类 型 的 套 接 字 : 基于 文件 的 和 面向 网 络 的 。 
的 套 接 字 的 第 一 个 家 族 ， 


言 (Inter Process Communication, 


个 “家 族 名 字 ”AF_UNIX 


(又 名 AF_LOCAL， 在 POSIX1.g 标准 中 指定 )， 它 代表 地 址 家 族 (address family): UNIX. 





包括 
统 可 














后 向 
然 在 








Python 在 内 的 大 多 数 受 欢 迎 的 平台 都 使 用 术语 地 址 家 族 及 其 缩写 AF; 其 











能 会 将 地 址 家 族 表示 成 域 (domain) 或 协议 家 族 (protocol family)， 并 使 
JE AF。 类 似 地 ，AF_LOCAL (在 2000—2001 年 标准 化 ) 将 代替 AF_UNIX。 然 而 ， 考 虑 到 
兼容 性 ， 很 多 系统 都 同时 使 用 二 者 ， 只 是 对 同一 个 常数 使 用 不 同 的 别名 。 








使 用 AF UNIX. 








也 比较 旧 的 系 


























j 其 缩写 PF 而 


Python 本 身 仍 





9823€ 网 络 编程 47 


mi 


因为 两 个 进程 运行 在 同一 台 计 算 机 上 ， 所 以 这 些 套 接 字 都 是 基于 文件 的 ， 这 意味 着 文件 























系统 支持 它们 的 底层 基础 结构 。 这 是 能 够 说 得 通 的 ， 因 为 文件 系统 是 一 个 运行 在 同一 主机 上 









































的 多 个 进程 之 间 的 共享 常量 。 





























第 二 种 类 型 的 套 接 字 是 基于 网 络 的 ， 它 也 有 自己 的 家 族 名 字 AF_INET， 或 者 地 址 家 族 : 
因特网 。 另 一 个 地 址 家 族 AF. INET6 用 于 第 6 版 因特网 协议 (IPv6) 寻 址 。 此 外 ， 还 有 其 他 















































的 地 址 家 族 ， 这 些 要 么 是 专业 的 、 过 时 的 、 很 少 使 用 的 ， 要 么 是 仍 未 实现 的 。 在 所 有 的 地 址 
家 族 之 中 ， 目 前 AF_INET 是 使 用 得 最 广泛 的 。 


























Python 2.5 ! 


























引入 了 对 特殊 类 型 的 Linux 套 接 字 的 支持 。 套 接 字 的 AF NETLINK Rk (无 
































连接 [ 见 2.3.3 节 ] ) 人 允许 使 用 标准 的 BSD 套 接 字 接口 进行 用 户 级 别 和 内 核 级 别 代码 之 间 的 IPC。 












































之 前 那 种 解决 方案 比较 麻烦 ， 而 这 个 解决 方案 可 以 看 作 一 种 比 前 一 种 更 加 优雅 且 风 险 更 低 的 


解决 方案 ， 例 如 ， 





























添加 新 系统 调用 、/proc 支持 ， 或 者 对 一 个 操作 系统 的 “IOCTL”。 











针对 Linux 的 男 一 种 特性 Python 2.6 中 新 增 ) 就 是 支持 透明 的 进程 间 通 信 CTIPCO D) 


议 。TIPC Mit 





























算 机 集群 之 中 的 机 器 相互 通信 ， 而 无 须 使 用 基于 IP 的 寻 址 方式 。Python 对 











TIPC 的 支持 以 AF_TIPC 家 族 的 方式 呈现 。 


总 的 来 说 ,，P 





ython 只 支持 AF_UNIX、AF_NETLINK、AF_TIPC 和 AF_INET 家 族 。 因 为 


本 章 重点 讨论 网 络 编程 ， 所 以 在 本 章 剩余 的 大 部 分 内 容 中 ， 我 们 将 使 用 AF. INET. 
2.3.,2 ” 套 接 字 地 址 : 主机 -端口 对 


如 果 一 个 套 接 字 像 一 个 电话 插 孔 一 一 允许 通信 的 一 些 基础 设施 ， 那 么 主机 名 和 端口 号 就 
像 区 号 和 电话 号 码 的 组 合 。 然 而 ， 拥 有 硬件 和 通信 的 能 力 本 身 并 没有 任何 好 处 ， 除 非 你 知道 




















E 话 打 给 谁 以 及 如 何 拨打 电话 。 一 个 网 络 地 址 由 主机 名 和 端口 号 对 组 成 ， 而 这 是 网 络 通信 所 
需要 的 。 此 外 ， 并 未 事先 说 明 必 须 有 其 他 人 在 另 一 端 接听 ;， 否则， 你 将 听 到 这 个 熟悉 的 声音 


















































































































































“对 不 起 ， 您 所 拨打 的 电话 是 空 号 ， 请 核对 后 再 拨 ”。 你 可 能 已 经 在 浏览 网 页 的 过 程 中 见 过 一 












































个 网 络 类 比 ， 例 如 “无 法 连接 服务 器 ， 服 务 器 没有 响应 或 者 服务 器 不 可 达 。?” 
有 效 的 端口 号 范围 为 0 一 6$5$3$〈 尽 管 小 于 1024 的 端口 号 预 留 给 了 系统 )。 如 果 你 正在 使 









































] POSIX 兼容 系 














号 的 列表 (以 及 服务 器 / 协议 和 套 接 字 类 型 )。 众 所 周知 的 端口 号 列表 可 以 在 这 个 网 站 中 查看 ; 

















统 CUN Linux. Mac OS X 等 )， 那 么 可 以 在 /etc/services 文件 中 找到 预 留 端 口 



































http://www.iana.org/assignments/port-numbers . 
2.3.8 面向 连接 的 套 接 字 与 无 连接 的 套 接 字 

1l. 面向 连接 的 套 接 字 

不 管 你 采用 的 是 哪 种 地 址 家 族 , 都 有 两 种 不 同 风格 的 套 接 字 连接 。 第 一 种 是 面向 连接 的 ， 






































这 意味 着 在 进行 通信 之 前 必须 先 建立 一 个 连接 ， 例 如 ， 使 用 电话 系统 给 一 个 朋友 打 电 话 。 这 
种 类 型 的 通信 也 称 为 虚拟 电路 或 流 套 接 字 。 





























48 第 1 部 分 


























通用 应 用 主题 


























面向 连接 的 通信 提供 序列 化 的 、 可 靠 的 和 不 重复 的 数据 交付 ， 而 没有 记录 边界 。 这 基本 























上 意味 着 每 条 消息 可 以 拆 分 成 多 个 片段 ， 并 且 每 一 条 消息 片段 都 确保 能 够 到 达 目 的 地 ， 然 后 






























































将 它们 按 顺 序 组 合 在 一 起 ， 最 后 将 完整 消息 传递 给 正在 等 待 的 应 用 程序 。 
实现 这 种 连接 类 型 的 主要 协议 是 传输 控制 协议 〈 更 为 人 熟知 的 是 它 的 缩写 TCP) T 
创建 TCP 套 接 字 ， 必 须 使 用 SOCK STREAM 作为 套 接 字 类 型 TCP 套 接 字 的 名 字 


SOCK_STREAM 基于 流 套 接 字 的 其 中 一 种 表示 。 




























































































因为 这 些 套 接 字 (AF_INET) 的 网 络 版 本 




















使 用 因特网 协议 CIP) 来 搜寻 网 络 中 的 主机 ， 所 以 整个 系统 通常 结合 这 两 种 协议 (TCP 和 IP) 



































2. 无 连接 的 套 接 字 




















来 进行 (当然 ， 也 可 以 使 用 TCP 和 本 地 [ 非 网 络 的 AF_LOCAL/AF_UNIX] 套 接 字 ， 但 是 很 明 
显 此 时 并 没有 使 用 IP). 























与 虚拟 








外 路 形成 鲜明 对 比 的 是 数据 报 类 型 的 套 接 字 ， 














它 是 一 种 无 连接 的 套 接 字 。 这 意味 











着 ， 在 通信 开始 之 前 并 不 需要 建立 连接 。 此 时 ， 在 数据 传输 过 程 中 并 无 法 保证 它 的 顺序 性 、 

















可 靠 性 或 重复 性 。 然 而 ， 数 据 报 在 






































并 非 首 先 分 成 多 个 片段 ， 例 如 ， 使 用 面向 连接 的 协议 。 
使 用 数据 报 的 消息 传输 可 以 比 作 邮政 服务 。 信 件 和 



























































的 消息 。 


既然 有 这 么 多 副作用 ， 为 什么 还 使 用 数据 报 昵 (使 用 流 套 接 字 肯 定 有 一 些 优势 ) ? 由 于 面 
向 连 接 的 套 接 字 所 提供 的 保证 ， 因 此 它们 的 设置 以 及 对 虚拟 电路 连接 的 维护 需要 大 量 的 开销 。 

















事实 上 ， 它 们 可 能 不 会 到 达 。 为 了 将 其 添加 到 并 发 通信 


























外 实 保存 了 记录 边界 ， 这 就 意味 着 消息 是 以 整体 发 送 的 ， 而 











FL BEE IEA BE VA RIK UY BGK 
中 ， 在 网 络 中 甚至 有 可 能 存在 重复 















































































































































然而 ， 数 据 报 不 需要 这 些 开 销 ， 即 它 的 成 本 更 加 “低廉 ” 
并 且 可 能 适合 一 些 类 型 的 应 用 程序 。 
实现 这 种 连接 类 型 的 主要 协议 是 用 户 数据 报 协 议 ( 更 为 人 熟知 的 是 其 缩写 UDP) AN 了 





创建 UDP 套 接 字 ， 必 须 使 有 


















































SOCK DGRAM 名 字 来 自 于 单词 “datagram”( 数 据 报 )。 
来 寻找 网 络 中 的 主机 ， 所 以 这 个 系统 也 有 一 个 更 加 普通 的 名 字 ， 即 这 两 种 协议 CUDP fI IP) 





















































因此 ， 它 们 通常 能 提供 更 好 的 性 能 ， 

















H SOCK_DGRAM 作为 套 接 字 类 型 。 你 可 能 知道 ，UDP 套 接 字 的 





























因为 这 些 套 接 字 也 使 用 因特网 协议 



































的 组 合 名 字 ， 或 UDP/IP。 


2.4 Python 中 的 网 络 编程 





既然 你 知道 了 所 有 关于 客户 端 / 服 

















务 器 架构 、 套 接 字 和 网 络 方面 的 基础 知识 ， 接 下 来 就 让 



































我 们 试 着 将 这 些 概念 应 用 到 Python 中 。 本 节 中 将 使 用 的 3 








要 模块 就 是 socket 模块 ， 在 这 个 模 
















































































块 中 可 以 找到 socketO) 函 数 ， 该 函数 用 于 创建 套 接 字 对 象 。 套 接 字 也 有 自己 的 方法 集 ， 这 些 方 
法 可 以 实现 基于 套 接 字 的 网 络 通 信 。 
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2.4.1 socket) {Rik ek Z 
HAEE, MIHE socket.socket() AA, "C — AEAU TF 


socket (socket_family, socket_type, protocol=0) 
其 中 ,socket family 3€ AF. UNIX 或 AF_INET( 如 前 所 述 ),socket_type 是 SOCK_STREAM 
或 SOCK_DGRAM (也 如 前 所 述 )。protocol 通常 省 略 ， 默 认为 0。 
所 以 ， 为 了 创建 TCP/IP 套 接 字 ， 可 以 用 下 面 的 方式 调用 socket.socket()。 
tcpSock = socket.socket(socket.AF INET, socket.SOCK STREAM) 
同样 ， 为 了 创建 UDP/P 套 接 字 ， 需 要 执行 以 下 语句 。 
udpSock = socket.socket(socket.AF INET, socket.SOCK DGRAM) 
因为 有 很 多 socket 模块 属性 ， 所 以 此 时 使 用 “from module import *” 这 种 导入 方式 可 以 
接受 ， 不 过 这 只 是 其 中 的 一 个 例外 。 如 果 使 用 om ao hot *” 那么 我 们 就 把 socket 
属性 引入 到 了 命名 空间 中 。 虽然 这 看 起 来 有 些 麻 烦 , 但 是 通过 这 种 方式 将 能 够 大 大 缩短 代码 ， 
正如 下 面 所 示 。 
tcpSock = socket(AF INET, SOCK STREAM) 


且 有 了 一 个 套 接 字 对 象 ， 那 么 使 用 套 接 字 对 象 的 方法 将 可 以 进行 进一步 的 交互 。 
2.4.2 FHR (AB) 方法 


X 2-1 列 出 了 最 常见 的 套 接 字 方 法 。 在 下 一 节 中 ， 我 们 将 使 用 其 中 的 一 些 方 法 创建 TCP 
和 UDP 客户 端 与 服务 器 。 虽 然 我 们 专注 于 网 络 套 接 字 ， 但 这 些 方法 与 使 用 本 地 /不 联网 的 套 
接 字 时 有 类 似 的 含义 。 
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表 2-1 常见 的 套 接 字 对 象 方法 和 属性 

















































































































名 M HX 
服务 器 套 接 字 方法 
s.bind() 将 地 址 〈 主 机 名 、 端 口号 对 ) 绑 定 到 套 接 字 上 
s.listen() 设置 并 启动 TCP 监听 器 
s.accept() 被 动 接受 TCP 客户 端 连接 ， 直 等 待 直到 连接 到 达 ( 阻 塞 ) 
客户 端 套 接 字 方法 
s.connect() 主动 发 起 TCP 服务 器 连接 
s.connect_ex() connect() 的 扩展 版 本 ， 此 时 会 以 错误 码 的 形式 返回 问题 ， 而 不 是 抛 出 一 个 异常 
普通 的 套 接 字 方法 
s.recv() 接收 TCP 消息 
s.recv_into()” 接收 TCP 消息 到 指定 的 缓冲 区 
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(BER) 
名 F 描 B 
s.send() BG TCP 消息 
s.sendall() 完整 地 发 送 TCP 消息 
s.recvfrom() 接收 UDP 消息 
s.recvfrom_into()” 接收 UDP 消息 到 指定 的 缓冲 区 
s.sendto() 发 送 UDP 消息 
s.getpeername() 连接 到 套 接 字 (TCP) 的 远程 地 址 
s.getsockname() 当前 套 接 字 的 地 址 
s.getsockopt() 返回 给 定 套 接 字 选项 的 值 
s.setsockopt() 设置 给 定 套 接 字 选 项 的 值 
s.shutdown() 关闭 连接 
s.close() 关闭 套 接 字 
s.detach()” 在 未 关闭 文件 描述 符 的 情况 下 关闭 套 接 字 ， 返 回 文件 描述 符 
s.ioctl ^ 控制 套 接 字 的 模式 〈 仅 支持 Windows) 
面向 阻塞 的 套 接 字 方 法 
s.setblocking() 设置 套 接 字 的 阻塞 或 非 阻塞 模式 
s.settimeout()” 设置 阻塞 套 接 字 操作 的 超时 时 间 
s.gettimeout()^ 获取 阻塞 套 接 字 操作 的 超时 时 间 
面向 文件 的 套 接 字 方 法 
s.fileno() 套 接 字 的 文件 描述 符 
s.makefile() 创建 与 套 接 字 关 联 的 文件 对 象 
数据 属性 
s.family^ 套 接 字 家 族 
s.type” 套 接 字 类 型 
s.proto” 套 接 字 协 议 





(D Python 2.5 中 新 增 。 
Q) Python 32 中 新 增 。 
(3) Python 2.6 中 新 增 ， 仅 仅 支持 Windows 平台 ; POSIX 系统 可 以 使 用 functl 模块 函数 。 
@ Python 2.3 中 新 增 。 





























核心 提示 : 在 不 同 的 计算 机 上 分 别 安装 客户 端 和 服务 器 来 运行 网 络 应 用 程序 

在 本 章 众 多 的 例子 中 ， 你 会 经 常 看 到 指示 主机 “localhost” 的 代码 和 输出 ， 或 者 看 到 
127.0.0.1 的 IP 地 址 。 在 这 里 的 示例 中 ， 客 户 端 和 服务 器 运行 在 同一 台 计 算 机 上 。 不 过 ， 
鼓励 读者 修改 主机 名 ， 并 将 代码 复制 到 不 同 的 计算 机 上 ， 因 为 这 样 开 发 的 代码 运行 起 来 更 
加 有 趣 ， 让 计算 机 通过 网 络 相互 通信 ， 然 后 可 以 看 到 网 络 程序 确实 能 够 工作 ! 


9823€ 网 络 编程 51 


2.4.3 创建 TCP 服务 器 


首先 , 我 们 将 展现 创建 通用 TCP 服务 器 的 一 般 伪 代码 ， 然 后 对 这 些 代 码 的 含义 进行 一 般 
性 的 描述 。 需 要 记 住 的 是 ， 这 仅仅 是 设计 服务 器 的 一 种 方式 。 一 旦 熟悉 了 服务 器 设计 ， 那 么 






























































你 将 能 够 按照 自己 的 要 求 修改 下 面 的 伪 代 码 来 操作 服务 器 。 
ss = socket() 创建 服务 器 套 接 字 
ss.bind() 套 接 字 与 地 址 绑 定 
ss.listen() 监听 连接 
inf loop: 服务 器 无 限 循环 
CS = ss.accept () 接受 客户 端 连接 
comm loop: 通信 循环 
cs.recv()/cs.send() 对 话 〈 接 收 / 发 送 ) 
cs.close() # 关闭 客户 端 套 接 字 
ss.close() E 关闭 服务 器 套 接 字 # (可 选 》 



































所 有 套 接 字 都 是 通过 使 用 socketsocketO 函 数 来 创建 的 。 因 为 服务 器 需要 占用 一 个 端口 并 
等 待 客 户 端的 请 求 , 所 以 它们 必须 绑 定 到 一 个 本 地 地 址 。 因 为 TCP 是 一 种 面向 连接 的 通信 系 
统 ， 所 以 在 TCP 服务 器 开始 操作 之 前 ， 必 须 安装 一 些 基础 设施 。 特 别 地 ，TCP 服务 器 必须 监 
Ur RAO 的 连接 。 一 旦 这 个 安装 过 程 完 成 后 ， 服 务 器 就 可 以 开始 它 的 无 限 循环 。 
调用 accept0 函 数 之 后 , 就 开启 了 一 个 简单 的 (单线 程 ) 服务 器 , 它 会 等 待 客户 端的 连接 。 
默认 情况 下 ，acceptO 是 阻塞 的 ， 这 意味 着 执行 将 被 暂停 ， 直 到 一 个 连接 到 达 。 另 外 ， 套 接 字 
确实 也 支持 非 阻 塞 模式 ， 可 以 参考 文档 或 操作 系统 教材 ， 以 了 解 有 关 为 什么 以 及 如 何 使 用 非 
阻塞 套 接 字 的 更 多 细节 。 
一 旦 服务 器 接受 了 一 个 连接 ， 就 会 返回 (利用 accept()) 一 个 独立 的 客户 端 套 接 字 ， 用 来 
与 即将 到 来 的 消息 进行 交换 。 使 用 新 的 客户 端 套 接 字 类 似 于 将 客户 的 电话 切换 给 客服 代表 。 
当 一 个 客户 电话 最 后 接 进来 时 ， 主 要 的 总 机 接线 员 会 接 到 这 个 电话 ， 并 使 用 另 一 条 线路 将 这 
个 电话 转 接 给 合适 的 人 来 处 理 客 户 的 需求 。 

这 将 能 够 空 出 主线 (原始 服务 器 套 接 字 ), 以 便 接线 员 可 以 继续 等 待 新 的 电话 (客户 请 求 )， 
而 此 时 客户 及 其 连接 的 客服 代表 能 够 进行 他 们 自己 的 谈话 。 同 样 地 ， 当 一 个 传 入 的 请 求 到 达 
时 ， 服 务 器 会 创建 一 个 新 的 通信 端口 来 直接 与 客户 端 进行 通信 ， 再 次 空 出 主要 的 端口 ， 以 使 
其 能 够 接受 新 的 客户 端 连接 。 

一 旦 创建 了 临时 套 接 字 ， 通 信和 就 可 以 开始 ， 通 过 使 用 这 个 新 的 套 接 字 ， 客 户 端 与 服务 器 
就 可 以 开始 参与 发 送 和 接收 的 对 话 中 ， 直 到 连接 终止 。 当 一 方 关闭 连接 或 者 向 对 方 发 送 一 个 
空 字符 串 时 ， 通 常 就 会 关闭 连接 。 

在 代码 中 ， 一 个 客户 端 连接 关闭 之 后 ， 服 务 器 就 会 等 待 另 一 个 客户 端 连接 。 最 后 一 行 代 
码 是 可 选 的 ， 在 这 里 关闭 了 服务 器 套 接 字 。 其 实 ， 这 种 情况 永远 也 不 会 碰 到 ， 因 为 服务 器 应 
该 在 一 个 无 限 循 环 中 运行 。 在 示例 中 这 行 代码 用 来 提醒 读者 ， 当 为 服务 器 实现 一 个 智能 的 退 
出 方案 时 ， 建 议 调用 close0 方 法 。 例 如 ， 当 一 个 处 理 程序 检测 到 一 些 外 部 条 件 时 ， 服 务 器 就 
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应 该 关闭 。 在 这 些 情况 下 ， 应 该 调用 一 个 close0 方 法 。 





核心 提示 : 多 线程 处 理 客户 端 请 求 
我 们 没 在 该 例子 中 实现 这 一 点 ,但 将 一 个 客户 端 请 求 切换 到 一 个 新 线程 或 进程 来 完成 
客户 端 处 理 也 是 相当 普遍 的 。 SocketServer 模块 是 一 个 以 socket 为 基础 而 创建 的 高 级 套 接 
字 通 信和 模块 ， 它 支持 客户 端 请 求 的 线程 和 多 进程 处 理 。 可 以 参考 文档 或 在 第 4 章 的 练习 部 
分 获取 SocketServer 模块 的 更 多 信息 。 
示例 2-1 给 出 了 tsTserv.py 文件 ， 它 是 一 个 TCP 服务 器 程序 ， 它 接受 客户 端 发 送 的 数据 


字符 串 ， 并 将 其 打上 时 间 惟 《格式 : [时 间 戳 ] 数 据 ) 并 返回 给 客户 端 〈“tsTserv” 代 表 时 间 戳 
TCP 服务 器 ， 其 他 文件 以 类 似 的 方式 命名 )。 























示例 2-1 TCP 时 间 戳 服务 器 (tsTserv.py) 
这 个 脚本 创建 一 个 TCP 服务 器 ， 它 接受 来 自 客户 端的 消息 ， 然 后 将 消息 加 上 时 间 惟 前缀 并 发 送 回 客户 端 。 















































#!/usr/bin/env python 


BUFSIZ - 1024 
ADDR = (HOST, PORT) 


l 

2 

3 from socket import * 

4 from time import ctime 
5 

6 HOST = '' 

7 PORT = 21567 

8 

9 


ll tcpSerSock = socket(AF INET, SOCK STREAM) 
12 tcpSerSock.bind(ADDR) 
13 tcpSerSock.listen(5) 


14 

15 while True: 

16 print ‘waiting for connection...' 
17 tcpCliSock, addr = tcpSerSock.accept() 
18 print '...connected from:', addr 
19 

20 while True: 

21 data = tcpCliSock. recv(BUFSIZ) 
22 if not data: 

23 break 

24 tcpCliSock.send('[%s] %s' % C 
25 ctime(), data)) 

26 

27 tcpCliSock.close() 


28 tcpSerSock.close() 


逐 行 解 释 


第 1~4 行 
在 UNIX 启动 行 后 面 ， 导 入 了 time.ctime0 和 socket 模块 的 所 有 属性 。 
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第 6~13 íF 

HOST 变量 是 空白 的 ， 这 是 对 bind0 方 法 的 标识 ， 表 示 它 可 以 使 用 任何 可 用 的 地 址 。 我 
们 也 选择 了 一 个 随机 的 端口 号 ， 并 且 该 端口 号 似乎 没有 被 使 用 或 被 系统 保留 。 另 外 ， 对 于 该 
应 用 程序 ， 将 缓冲 区 大 小 设置 为 1KB。 可 以 根据 网 络 性 能 和 程序 需要 改变 这 个 容量 。listen() 
方法 的 参数 是 在 连接 被 转 接 或 拒绝 之 前 ， 传 入 连接 请 求 的 最 大 数 。 

在 第 11 行 ， 分配 了 TCP 服务 器 套 接 字 〈tcpSerSock)， 紧 随 其 后 的 是 将 套 接 字 绑 定 到 服 
务 器 地 址 以 及 开启 TCP 监听 器 的 调用 。 

第 15—28 íF 

一 旦 进入 服务 器 的 无 限 循环 之 中 ,我们 就 〈 被 动 地 ) 等 待 客户 端的 连接 。 当 一 个 连接 请 求 出 
现时 ， 我 们 进入 对 话 循环 中 ,在 该 循环 中 我 们 等 待 客户 端 发 送 的 消息 。 如 果 消 息 是 空白 的 ， 这 意 
味 着 客户 端 已 经 退出 ， 所 以 此 时 我 们 将 跳出 对 话 循环 ， 关 闭 当前 客户 端 连接 ， 然 后 等 待 另 一 个 客 
户 端 连接 。 如 果 确 实 得 到 了 客户 端 发 送 的 消息 ， 就 将 其 格式 化 并 返回 相同 的 数据 ， 但 是 会 在 这 些 
数据 中 加 上 当前 时 间 礁 的 前 级 。 最 后 一 行 永远 不 会 执行 ， 它 只 是 用 来 提醒 读者 ， 如 果 写 了 一 个 处 
理 程序 来 考虑 一 个 更 加 优雅 的 退出 方式 ， 正 如 前 面 讨论 的 ， 那 么 应 该 调用 close0 方 法 。 

现在 让 我 们 看 一 下 Python 3 版 本 (tsTserv3.py)， 如 示例 2-2 所 示 。 



























































































































































n 












































示例 2-2 Python 3 TCP 时 间 戳 服务 器 (tsTserv3.py) 


这 个 脚本 创建 一 个 TcP 服务 器 ， 它 接受 来 自 客 户 端的 消息 ， 并 返回 加 了 时 间 改 前 绥 的 相同 消息 。 
#!/usr/bin/env python 












































* 


from socket import * 
from time import ctime 


HOST = '' 

PORT - 21567 
BUFSIZ - 1024 

9 ADDR = (HOST, PORT) 


oe - Oe 4 oU 有 一 


ll tcpSerSock = socket(AF INET, SOCK STREAM) 
12 tcpSerSock.bind(ADDR) 
13 tcpSerSock.listen(5) 


14 

15 while True: 

16 print('waiting for connection...') 

17 tcpCliSock, addr = tcpSerSock.accept() 
18 print('...connected from:', addr) 

19 

20 while True: 

21 data = tcpCliSock.recv(BUFSIZ) 

22 if not data: 

23 break 

24 tcpCliSock.send('[%s] %s' 96 C 

25 bytes(ctime(), 'utf-8'), data)) 
26 

27 tcpCliSock.close() 


28  tcpSerSock.close() 
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已 经 在 第 16、18 和 25 行 中 以 斜体 标 出 了 相关 的 变化 ， 其 中 print 变 成 了 一 个 函数 ， 并 且 
也 将 字符 串 作为 一 个 ASCII 字 节 “字符 串 ” 发 送 ， 而 并 非 Unicode 编码 。 本 书后 面部 分 我 们 
将 讨论 Python 2 到 Python 3 的 迁移 ， 以 及 如 何 编写 出 无 须 修改 即 可 运行 于 2.x 版 本 或 3.x 版 
本 解释 器 上 的 代码 。 
支持 IPv6 的 另外 两 个 变化 并 未 在 这 里 展示 出 来 , 但 是 当 创建 套 接 字 时 ， 你 仅仅 需要 将 地 
址 家 族 中 的 AF INET (IPv4) 修改 成 AF INET6 (IPv6) (如果 你 不 熟悉 这 些 术 语 ， 那 么 IPv4 
述 了 当前 的 因特网 协议 ， 而 下 一 代 是 版 本 6， 即 “IPv6”)。 


2.4.4 ”创建 TCP 客户 端 


创建 客户 端 比 服务 器 要 简单 得 多 。 与 对 TCP 服务 器 的 描述 类 似 ， 本 节 将 先 给 出 附带 解 和 
的 伪 代 码 ， 然 后 揭示 真相 。 
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cs = socket() # 创建 客户 端 套 接 字 
cs.connect () # 尝试 连接 服务 器 
comm loop: # 通信 循环 
cs.send()/cs.recv() # 对 话 〈 发 送 /接收 ) 
cs.close() # 关闭 客户 端 套 接 字 









































正如 前 面 提 到 的 ， 所 有 套 接 字 都 是 利用 socket.socket0 创 建 的 。 然 而 ,一 旦 客户 端 拥有 了 
一 个 套 接 字 ， 它 就 可 以 利用 套 接 字 的 connectO 方 法 直接 创建 一 个 到 服务 器 的 连接 。 当 连接 建 
立 之 后 ， 它 就 可 以 参与 到 与 服务 器 的 一 个 对 话 中 。 最 后 ， 一 旦 客户 端 完成 了 它 的 事务 ， 它 就 
可 以 关闭 套 接 字 ， 终 止 此 次 连接 。 
示例 2-3 给 出 了 tsTelnt.py 的 代码 。 这 个 脚本 连接 到 服务 器 ， 并 以 逐 行 数据 的 形式 提 
示 用 户 。 服 务 器 则 返回 加 了 时 间 惟 的 相同 数据 ， 这 些 数据 最 终 会 通过 客户 端 代 码 呈 现 给 
a 





























































































































示例 2-3 TCP 时 间 戳 客户 端 (tsTclnt.py) 
这 个 脚本 创建 一 个 TCP 客户 端 , 它 提示 用 户 输入 发 送 到 服务 器 端的 消息 ， 并 接收 从 服务 器 端 返 回 的 添加 了 时 间 戳 前 
绷 的 相同 消息 ， 然 后 将 结果 展示 给 用 户 。 

































































#!/usr/bin/env python 


from socket import * 
HOST = 'localhost' 
PORT = 21567 


BUFSIZ - 1024 
ADDR = (HOST, PORT) 


XO O06 —) Ota RU Eb— 


c 
c 


tcpCliSock = socket(AF INET, SOCK STREAM) 
tcpCliSock.connect(ADDR) 


> = 


D 


while True: 


we 
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14 data = raw input('» ') 

15 if not data: 

16 break 

17 tcpCliSock.send(data) 

18 data = tcpCliSock.recv(BUFSIZ) 
19 if not data: 

20 break 

21 print data 

22 


23 tcpCliSock.close() 


逐 行 解释 


第 1~3 行 

在 UNIX 启动 行 后 ， 从 socket 模块 导入 所 有 属性 。 

A 5~11 4T 

HOST 和 PORT 变量 指 服务 器 的 主机 名 与 端口 号 。 因 为 在 同一 台 计 算 机 上 运行 测试 〈 在 
本 例 中 )， 所 以 HOST 包含 本 地 主机 名 《如 果 你 的 服务 器 运行 在 另 一 台 主 机 上 ， 那 么 需要 进 
行 相 应 修改 )。 端 口号 PORT 应 该 与 你 为 服务 器 设置 的 完全 相同 否则， 将 无 法 进行 通信 )。 
此 外 ， 也 将 缓冲 区 大 小 设置 为 1KB。 

在 第 10 行 分 配 了 TCP 客户 端 套 接 字 (tcpCliSock)， 接 着 主动 调用 并 连接 到 服务 器 。 

第 13—23 íF 

客户 端 也 有 一 个 无 限 循环 ， 但 这 并 不 意味 着 它 会 像 服务 器 的 循环 一 样 永远 运行 下 去 。 客 户 
端 循环 在 以 下 两 种 条 件 下 将 会 跳出 : 用 户 没 有 输入 (第 14~16 行 ), 或 者 服务 器 终止 且 对 recvO 
方法 的 调用 失败 〈 第 18—20 行 )。 和 否则 ， 在 正常 情况 下 ， 用 户 输入 一 些 字 符 串 数据 ， 把 这 些 数 
据 发 送 到 服务 器 进行 处 理 。 然 后 ， 客 户 端 接 收 到 加 了 时 间 戳 的 字符 串 ， 并 显示 在 屏幕 上 。 

类 似 于 对 服务 器 所 做 的 ， 下 面 Python 3 和 IPv6 版 本 的 客户 端 CtsTelnt3.py), Z8] 2-4 展 
示 了 Python 3 版 本 。 




















































































































































































































示例 2-4 Python 3 TCP Hie Pim 〈tsTclnt3.py) 
这 是 与 tsTclnt .py 等 同 的 Python 3 版 本 。 

#!/usr/bin/env python 

from socket import * 


1 

2 

3 

4 

5 HOST '127.0.0.1' # or 'localhost' 
6 PORT = 21567 
7 

8 

9 


BUFSIZ - 1024 
ADDR = (HOST, PORT) 


10 tcpCliSock = socket(AF INET, SOCK STREAM) 
ll tcpCliSock.connect (ADDR) 


13 while True: 
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14 data = input('» ') 

15 if not data: 

16 break 

17 tcpCliSock.send(data) 

18 data = tcpCliSock.recv(BUFSIZ) 
19 if not data: 

20 break 

21 print(data.decode('utf-8')) 

22 


23 tcpCliSock.close() 














除了 将 print 变 成 了 一 个 函数 ， 我 们 还 必须 解码 来 自 服 务 器 端的 字符 串 〈 借 助 于 
distutils.log.warn()， 很 容易 将 原始 脚本 转换 ， 使 其 同时 能 运行 在 Python 2 和 Python3 上 ， 就 
像 第 1 章 中 的 rewhoU.py 一 样 )。 最 后 ， 我 们 看 一 下 (Python 2〉IPv6 版 本 (tsTclntV6.py), 
如 示例 2-5 所 示 。 




















示例 2-5 IPv6TCP 时 间 戳 客户 端 〈tsTclntV6.py) 


























这 是 前 面 两 个 示例 中 TCP 客户 端的 IPv6 版 本 。 
1 #!/usr/bin/env python 
2 
3 from socket import * 
4 
5 HOST = '::1' 
6 | PORT = 21567 
7  BUFSIZ - 1024 
8  ADDR = (HOST, PORT) 
9 


10  tcpCliSock = socket(AF INET6, SOCK STREAM) 
l1 tcpCliSock.connect(ADDR) 


13 while True: 


14 data - raw input('» ') 

15 if not data: 

16 break 

17 tcpCliSock.send(data) 

18 data - tcpCliSock.recv(BUFSIZ) 
19 if not data: 

20 break 

21 print data 

22 


23 tcpCliSock.close() 














在 这 个 代码 片段 中 ， 需 要 将 本 地 主机 修改 成 它 的 IPv6 地 址 “::1” 同时 请 求 套 接 字 的 
AF INET6 家 族 。 如 果 结 合 tsTclnt3.py 和 tsTclntV6.py 中 的 变化 ， 那 么 将 得 到 一 个 Python 3 
版 本 的 IPv6 TCP 客户 端 。 


2.4.5 执行 TCP 服务 器 和 客户 端 
现在 ， 运 行 服务 器 和 客户 端 程序 ， 看 看 它们 是 如 何 工 作 的 。 然 而 ， 应 该 先 运行 服务 器 还 是 
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客户 端 呢 ?当然 ， 如 果 先 运行 客户 端 ， 那 么 将 无 法 进行 任何 连接 ， 因 为 没有 服务 器 等 待 接 受 请 
RK. 服务 器 可 以 视 为 一 个 被 动 伙伴 ， 因 为 必须 首先 建立 自己 , 然后 被 动 地 等 待 连接 。 男 一 方面 ， 
客户 端 是 一 个 主动 的 合作 伙伴 ， 因 为 它 主动 发 起 一 个 连接 。 换 人 句 话说 : 

首先 启动 服务 器 ( 在 任何 客户 端 试 图 连接 之 前 )。 

在 该 示例 中 ， 使 用 相同 的 计算 机 ， 但 是 完全 可 以 使 用 另 一 台 主 机 运行 服务 器 。 如 果 是 这 
种 情况 ， 仅 仅 需要 修改 主机 名 就 可 以 了 “【 当 你 在 不 同 计 算 机 上 分 别 运行 服务 器 和 客户 端 以 此 
获得 你 的 第 一 个 网 络 应 用 程序 时 ， 这 将 是 相当 令 人 兴奋 的 !)。 

现在 ， 我 们 给 出 客户 端 对 应 的 输入 和 输出 ， 它 以 一 个 未 带 输入 数据 的 简单 Return (或 
Enter) 键 结束 。 




































































































































































$ tsTclnt.py 

> hi 

[Sat Jun 17 17:27:21 2006] hi 

> spanish inquisition 

[Sat Jun 17 17:27:37 2006] spanish inquisition 
> 


$ 
服务 器 的 输出 主要 是 诊断 性 的 。 


$ tsTserv.py 
waiting for connection... 
...connected from: ('127.0.0.1', 1040) 


waiting for connection... 








当 客 户 端 发 起 连接 时 ， 将 会 收 到 “...connected from...” 的 消息 。 当 继续 接收 “服务 ” 
时 ， 服 务 器 会 等 待 新 客户 端的 连接 。 当 从 服务 器 退出 时 ， 必 须 跳 出 它 ， 这 就 会 导致 一 个 异 
常 。 为 了 避免 这 种 错误 ， 最 好 的 方式 就 是 创建 一 种 更 优雅 的 退出 方式 ， 正 如 我 们 一 直 讨 论 
的 那样 。 























核心 提示 : 优雅 地 退出 和 调用 服务 器 closel 方 法 

在 开发 中 ， 创 建 这 种 “友好 的 ”退出 方式 的 一 种 方法 就 是 ， 将 服务 器 的 while MAR 
在 一 个 try-except 语句 中 的 except 子 多 中 ， 并 监控 EOFError 或 KeyboardInterrupt 异常 ， 这 
样 你 就 可 以 在 except 或 finally 字句 中 关闭 服务 器 的 套 接 字 。 在 生产 环境 中 , 你 将 想 要 能 够 
以 一 种 更 加 自动 化 的 方式 启动 和 关闭 服务 器 。 在 这 些 情况 下 ,需要 通过 使 用 一 个 线程 或 创 
建 一 个 特殊 文件 或 数据 库 条 目 来 设置 一 个 标记 以 关闭 服务 。 


























关于 这 个 简单 的 网 络 应 用 程序 ， 有 趣 的 一 点 是 我 们 不 仅 展 示 了 数据 如 何 从 客户 端 到 达 服 
务 器 ， 并 最 后 返回 客户 端 ; 而 且 使 用 服务 器 作为 一 种 “时 间 服 务 器 ”， 因 为 我 们 接收 到 的 时 间 
戳 完全 来 自 服务 器 。 
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2.4.6 创建 UDP 服务 器 


UDP 服务 器 不 需要 TCP 服务 器 那么 多 的 设置 ， 因 为 它们 不 是 面向 连接 的 。 除 了 等 待 传 
入 的 连接 之 外 ， 几 乎 不 需要 做 其 他 工作 。 




















ss = socket() # 创建 服务 器 套 接 字 
ss.bind() # 绑 定 服务 器 套 接 字 
inf loop: # 服务 器 无 限 循环 
cs = ss.recvfrom()/ss.sendto() + 关闭 (接收 /发 送 ) 
ss.close() # 关闭 服务 器 套 接 字 


























从 以 上 伪 代 码 中 可 以 看 到 , 除了 普通 的 创建 套 接 字 并 将 其 绑 定 到 本 地 地 址 〈 主 机 名 /端口 号 
XD 外 ， 并 没有 额外 的 工作 。 无 限 循环 包含 接收 客户 端 消息 、 打 上 时 间 戳 并 返回 消息 ， 然 后 回 
到 等 待 男 一 条 消息 的 状态 。 再 一 次 ，closeO 调 用 是 可 选 的 ， 并 且 由 于 无 限 循环 的 缘故 ， 它 并 不 
会 被 调用 ， 但 它 提 醒 我 们 ， 它 应 该 是 我 们 已 经 提 及 的 优雅 或 智能 退出 方案 的 一 部 分 。 

UDP 和 TCP 服务 器 之 间 的 另 一 个 显著 差异 是 ， 因 为 数据 报 套 接 字 是 无 连接 的 ， 所 以 就 
没有 为 了 成 功 通信 而 使 一 个 客户 端 连接 到 一 个 独立 的 套 接 字 “转换 ”的 操作 。 这 些 服 务 器 仅 
仅 接 受 消息 并 有 可 能 回复 数据 。 

你 将 会 在 示例 2-6 的 tsUservpy 中 找到 代码 ， 这 是 前 面 给 出 的 TCP 服务 器 的 UDP 版 本 ， 
它 接受 一 条 客户 端 消息 ， 并 将 该 消息 加 上 时 间 恰 然后 返回 客户 端 。 



































































































































示例 2-6 UDP 时 间 戳 服务 器 (tsUserv.py) 
这 个 脚本 创建 一 个 UDP 服务 器 ， 它 接受 客户 端 发 来 的 消息 ， 并 将 加 了 时 间 戳 前 绥 的 该 消息 返回 给 客户 端 。 



































#!/usr/bin/env python 


from socket import * 
from time import ctime 


HOST = '' 

PORT = 21567 
BUFSIZ = 1024 

ADDR = (HOST, PORT) 


D O06 Os Ut ROT — 


二 三 


udpSerSock = socket(AF INET, SOCK DGRAM) 
udpSerSock.bind(ADDR) 


while True: 
print 'waiting for message..." 
data, addr - udpSerSock.recvfrom(BUFSIZ) 
udpSerSock.sendto('[%s] %s' % ( 
ctime(), data), addr) 
19 print '...received from and returned to:', addr 


SIADEON 


NN 
一 一 


udpSerSock.close() 
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逐 行 解释 











在 UNIX 启动 行 后 面 ， 导 入 time.ctime0 和 socket 模块 的 所 有 属性 ， 就 像 TCP 服务 器 设 
置 中 的 一 样 。 

第 6 一 12 行 

HOST 和 PORT 变量 与 之 前 相同 ,原因 与 前 面 完 全 相同 。 对 socket() 的 调用 的 不 同 之 
处 仅仅 在 于 , 我 们 现在 需要 一 个 数据 报 /UDP 套 接 字 类 型 , 但 是 bind0) 的 调用 方式 与 TCP 
服务 器 版 本 的 相同 。 再 一 次 ， 因 为 UDP 是 无 连接 的 ， 所 以 这 里 没有 调用 “监听 传 入 的 
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且 进 入 服务 器 的 无 限 循环 之 中 , 我 们 就 会 被 动 地 等 待 消息 (数据 报 )。 当 一 条 消息 到 达 
时 ， 我 们 就 处 理 它 〈 通 过 添加 一 个 时 间 惟 )， 并 将 其 发 送 回 客户 端 ， 然 后 等 待 另 一 条 消息 。 如 
前 所 述 ， 套 接 字 的 close() 方 法 在 这 里 仅 用 于 显示 。 


2.4.7 ”创建 UDP 客户 端 
在 本 节 中 所 强调 的 4 个 客户 端 中 ， UDP 客户 端的 代码 是 最 短 的 。 它 的 伪 代 码 如 下 所 示 。 


cs = socket () # 创建 客户 端 套 接 字 
comm loop: # 通信 循环 
cs.sendto()/cs.recvfrom() 对 话 〈 发 送 /接收 ) 
cs.close() # 关闭 客户 端 套 接 字 
一 旦 创建 了 套 接 字 对 象 , 就 进入 了 对 话 循环 之 中 ,在 这 里 我 们 与 服务 器 交换 消息 。 最 后 ， 
当 通 信 结 束 时 ， 就 会 关闭 套 接 字 。 
示例 2-7 中 的 tsUclnt.py 给 出 了 真正 的 客户 端 代码 。 
























































































































































































































































































































































示例 2-7 UDP Hie Aim CtsUcInt.py) 


这 个 脚本 创建 一 个 UDP 客户 端 ， 它 提示 用 户 输入 发 送 给 服务 器 的 消息 ， 并 接收 服务 器 加 了 时 间 改 前 绥 的 消息 ， 然 后 
将 它们 显示 给 户 。 















































#!/usr/bin/env python 


BUFSIZ - 1024 
ADDR = (HOST, PORT) 


1 

2 

3 from socket import * 
4 

5 HOST = 'localhost' 

6 PORT = 21567 

7 

8 


c 
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10 udpCliSock = socket(AF INET, SOCK DGRAM) 


12 while True: 


13 data = raw input('» ') 

14 if not data: 

15 break 

16 udpCliSock.sendto(data, ADDR) 

17 data, ADDR = udpCliSock.recvfrom(BUFSIZ) 
18 if not data: 

19 break 

20 print data 

21 


22 udpCliSock.close() 


逐 行 解 释 


第 1~3 行 

在 UNIX 启动 行 之 后 ， 从 socket 模块 中 导入 所 有 的 属性 ， 就 像 在 TCP 版 本 的 客户 端 中 
一 样 。 
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因为 这 次 还 是 在 本 地 计算 机 上 运行 服务 器 ， 所 以 使 用 “localhost” 及 与 客户 端 相 同 的 
端口 号 ， 并 且 缓 冲 区 大 小 仍旧 是 IKB 。 另 外 ， 以 与 UDP 服务 器 中 相同 的 方式 分 配套 接 字 
对 象 。 

第 12 一 22 行 

UDP 客户 端 循环 工作 方式 几乎 和 TCP 客户 端 完全 一 样 。 唯 一 的 区 别 是 ， 事 先 不 需要 建 
立 与 UDP 服务 器 的 连接 , 只 是 简单 地 发 送 一 条 消息 并 等 待 服务 器 的 回复 。 在 时 间 惟 字符 串 返 
回 后 ， 将 其 显示 到 屏幕 上 ， 然 后 等 待 更 多 的 消息 。 最 后 ， 当 输入 结束 时 ， 跳 出 循环 并 关闭 套 
接 字 。 

在 TCP 客户 端 /服务 器 例子 的 基础 上 ,创建 Python 3 fü IPv6 版 本 的 UDP 应 该 相当 直观 。 


2.4.8 执行 UDP 服务 器 和 客户 端 
UDP 客户 端的 行为 与 TCP 客户 端 相 同 。 



































































































































$ tsUclnt.py 

» hi 

[Sat Jun 17 19:55:36 2006] hi 

> spam! spam! spam! 

[Sat Jun 17 19:55:40 2006] spam! spam! spam! 


$ tsUserv.py 
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waiting for message... 
..received from and returned to: ('127.0.0.1', 1025) 


waiting for message... 











事实 上 ， 之 所 以 输出 客户 端的 信息 ， 是 因为 可 以 同时 接收 多 个 客户 端的 消息 并 发 送 回复 








消息 ， 这 样 的 输出 有 助 于 指示 消息 是 从 哪个 客户 端 发 送 的 。 利 月 






































H TCP 服务 器 ， 可 以 知道 消息 











AIA We m (LA sors en 个 连接 。 注 意 ， 此 时 消息 并 不 是 “waiting for 


connection”， 而 是 “waiting for message”. 


2.4.9 socket 模块 属性 








除了 现在 熟悉 的 socket.socket() PA ZZ 4h, socket 模块 还 提供 了 更 多 用 于 





Lar 


属性 。 其 中 ， 表 2-2 列 出 了 一 


属性 名 称 






































些 最 受 欢 迎 的 属性 。 


表 2-2 socket 模块 属性 
Jj x 











网 络 应 











开发 的 








数据 属性 





AF UNIX. AF_INET, AF_INET6"、 
AF NETLINK^. AF TIPC^ 





Python 中 支持 的 套 接 字 地 址 家 族 





SO STREAM, SO DGRAM 


套 接 字 类 型 (TCP= 流 ，UDP= 数 据 报 ) 









































has ipv6^ 指示 是 否 支持 IPv6 的 布尔 标记 

异常 

error 套 接 字 相关 错误 

herror 主机 和 地 址 相关 错误 

gaierror^ 地 址 相关 错误 

timeout 超时 时 间 

socket() 以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 (可 选 ) 创建 一 个 套 接 字 对 象 
socketpair() 以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 (可 选 ) 创建 一 对 套 接 字 对 象 














create_connection() 














常规 函数 ， 它 接收 一 个 地 址 (主机 名 ， 端 口号 ) 对 ， 返 回 套 接 字 对 象 




























































































fromfd() 一 个 打开 的 文件 描述 符 创建 一 个 套 接 字 对 象 

ssl() 通过 套 接 字 启动 一 个 安全 套 接 字 层 连接 ， 不 执行 证 书 验证 
getaddrinfo()” 获取 一 个 五 元 组 序列 形式 的 地 址 信息 

getnameinfo() 给 定 一 个 套 接 字 地 址 ， 返 回 (主机 名 ， 端 口号 ) 二 元 组 
getfqdn()” 返回 完整 的 域名 

gethostname() 返回 当前 主机 名 




















gethostbyname() 








将 一 个 主机 名 映射 到 它 的 IP 地 址 
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(BER) 
属性 名 称 ta 述 
gethostbyname_ex() gethostbyname() 的 扩展 版 本 ， 它 返回 主机 名 、 别 名 主机 集合 和 IP 地 址 列表 
gethostbyaddr() 将 一 个 全 地址 映射 到 DNS 信息 ;返回 与 gethostbyname_ex0 相 同 的 3 元 组 
getprotobyname() 将 一 个 协议 名 〈 如 “tcp” ) 映射 到 一 个 数字 
getservbyname()/getservbyport() n 民 务 名 映射 到 一 个 端口 号 , 或 者 反 过 来 ; 对 于 任何 一 个 函数 来 说 ,协议 名 都 是 可 
ntohl()/ntohs() 将 来 自 网 络 的 整数 转换 为 主机 字 节 顺序 
htonl()/htons() 将 来 自主 机 的 整数 转换 为 网 络 字 节 顺序 
inet, aton()/inet. ntoa() 将 IP 地 址 八进制 字符 串 转 换 成 32 位 的 包 格 式 ， 或 者 反 过 来 〈 仅 用 于 IPv4 地 址 ) 
inet. pton(/inet, ntop() 将 下 地 址 字符 串 转 换 成 打包 的 二 进 制 格式 ， 或 者 反 过 来 〈 同 时 适用 于 IPv4 和 JPv6 地 址 ) 
getdefaulttimeout()/setdefaulttimeout() | 以 秒 〈 浮 点 数 ) 为 单位 返回 默认 套 接 字 超时 时 间 ; 以 秒 ( 浮 点 数 ) 为 单位 设置 默认 套 接 
字 超 时 时 间 

@ Python 2.2 中 新 增 。 

@ Python 2.5 中 新 增 。 

(3) Python 2.6 中 新 增 。 

@ Python 2.3 中 新 增 。 

® Python 2.4 中 新 增 。 

© Python 2.0 中 新 增 。 


















































要 获取 更 多 信息 ， 请 参阅 Python 参考 库 中 的 socket 模块 文档 。 





2.5 *SocketServer 模块 























SocketServer 是 标准 库 中 的 一 个 高 级 模块 (Python 3.x 中 重 命名 为 socketserver)， 它 的 目 E 
标 是 简化 很 多 样板 代码 ， 它 们 是 创建 网 络 客 户 端 和 服务 器 所 必需 的 代码 。 这 个 模块 中 有 为 你 
创建 的 各 种 各 样 的 类 ， 如 表 2-3 所 示 。 
通过 复制 前 面 展示 的 基本 TCP 示例 ， 我 们 将 创建 一 个 TCP 客户 端 和 服务 器 。 你 会 发 现 
它们 之 间 存 在 明显 的 相似 性 ， 但 是 也 应 该 看 到 我 们 如 何 处 理 一 些 繁琐 的 工作 ， 于 是 你 不 必 担 
心 样板 代码 。 这 些 代表 了 你 能 够 编写 的 最 简单 的 同步 服务 器 (为 了 将 你 的 服务 器 配置 为 异步 
运行 ， 可 以 查看 本 章 末尾 的 练习 )。 
除了 为 你 隐藏 了 实现 细节 之 外 ， 男 一 个 不 同 之 处 是 , 我 们 现在 使 用 类 来 编写 应 用 程序 。 
因为 以 面向 对 象 的 方式 处 理事 务 有 助 于 组 织 数 据 ， 以 及 逻辑 性 地 将 功能 放 在 正确 的 地 方 。 
你 还 会 注意 到 ， 应 用 程序 现在 是 事件 驱动 的 ， 这 意味 着 只 有 在 系统 中 的 事件 发 生 时 ， 它 们 
才 会 工作 
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表 2-3 SocketServer 模块 类 
类 fü 述 
BaseServer 包含 核心 服务 器 功能 和 mix-in 类 的 钩子 ; 仅 用 于 推导 ， 这 样 不 会 创建 这 个 类 
的 实例 ， 可 以 用 TCPServer 或 UDPServer 创建 类 的 实例 
TCPServer/UDPServer 基础 的 网 络 同步 TCP/UDP 服务 器 





UnixStreamServer/UnixDatagramServer 











基于 文件 的 基础 同步 TCP/UDP 服务 器 








ForkingMixIn/ThreadingMixIn 


























核心 派出 或 线程 功能 ， 只 
性 ， 不 能 直接 实例 化 这 个 类 























作 mix-in 类 与 一 个 服务 器 类 配合 实现 一 些 异步 








ForkingTCPServer/ForkingUDPServer 


ForkingMixIn 和 TCPServer/UDPServer 的 组 合 





ThreadingTCPServer/ThreadingUDPServer 


ThreadingMixIn fll TCPServer/UDPServer 的 组 合 





BaseRequestHandler 




















包含 处 理 服务 请 求 的 核心 功能 ; 仅仅 


于 推导 , 这 样 无 法 创建 这 个 类 的 实例 ; 





























可 以 使 用 StreamRequestHandler 或 Da 





agramRequestHandler 创建 类 的 实例 





StreamRequestHandler/DatagramRequestHandler 














事件 包括 消息 
件 处 理 程序 。 所 有 



































的 事 




















的 发 送 和 接收 。 事 实 上 ， 你 会 看 到 类 定义 只 包括 一 个 
他 的 功能 都 来 
章 ) 也 是 事件 驱动 的 。 你 会 立即 注意 到 它们 的 相似 性 ， 因 


实现 TCP/UDP 服务 器 的 服务 处 理 器 





























SocketServer 类 。 此 外 ， 


自 使 用 的 























的 无 限 循环 ， 它 等 待 并 响应 客户 端的 服务 请 求 。 它 了 

















o 





的 无 限 while 循环 一 样 
在 原始 月 
等 待 。 在 此 处 的 服务 器 循环 
服务 器 接收 到 一 个 传 入 的 请 


2.5.1 


ae! 


























在 示例 2-8 中 ， 首 先导 入 服务 器 类 ， 然 后 定义 与 之 前 相同 的 主机 第 量 。 
节 请 查看 下 面 的 代码 片段 。 

















类 











用 来 接 


为 最 后 一 行 代码 通常 是 


改 客户 端 消息 
i 程 ( 见 第 5 
个 服务 器 








GUIY 
























































创 























你 的 函数 。 





创建 SocketServer TCP 服务 器 








[ 作 起 来 几乎 与 本 章 前 面 的 基础 TCP 服务 
及 务 器 循环 中 ， 我 们 阻塞 等 待 请求 ， 当 接收 到 请 求 时 就 对 其 提供 服务 ， 然 后 继续 
， 并 非 在 服务 器 5 
求 时 ， 服 务 器 就 可 以 调 

















建 代码 ， 而 是 定义 一 个 处 理 程序 ， 这 样 当 


























Anse. We 








FEJ 























VN? 








示例 2-8 SocketServer 时 间 戳 TCP 服务 器 (tsTservSS.py) 














通过 使 








Socket Server 类 、TCPServer 和 StreamRequestHandler, 该 脚本 创 寻 
#!/usr/bin/env python 


from SocketServer import (TCPServer as TCP, 


] 

2 

3 

4 StreamRequestHandler as SRH) 
5 from time import ctime 

6 

7 HOST = '' 

8 PORT = 21567 

9 ADDR = (HOST, PORT) 


class MyRequestHandler(SRH): 


























请 求 处 理 








E: 














E Y —^ ER TCP 服务 器 。 
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12 
13 
14 
15 
16 
17 
18 
19 


逐 行 解 释 


第 1 一 9 行 


最 初 的 部 分 包括 从 SocketServer 导入 正确 的 类 。 注 意 ， 这 里 使 

















用 应 用 主题 








def handle(self): 
print '...connected from:', self.client address 
self.wfile.write('[%s] %s' % (ctime(), 
self.rfile.readline())) 


tcpServ = TCP(ADDR, MyRequestHandler) 
print 'waiting for connection...' 
tcpServ.serve forever() 
































— 





] T Python 2.4 中 引入 的 多 





























行 导入 功能 。 如 果 使 用 的 是 较 早 版 本 的 Python， 那么 将 不 和 人 ` 得 不 使 用 完全 限定 的 module.attribute 











名 称 ， 或 者 在 同一 行 中 导入 两 个 属性 。 











from SocketServer import TCPServer as TCP, StreamRequestHandler as SRH 


第 11 一 15 











行 














这 里 进行 了 大 量 的 工作 。 我 们 得 到 了 请 求 处 理 程 序 MyRequestHandler, 作为 SocketServer 
中 StreamRequestHandler 的 一 个 子 类 ， 并 重 写 了 它 的 handle0 方 法 ， 该 方法 在 基 类 Request 中 
默认 情况 下 没有 任何 行为 。 
































def handle(self): 


pass 


当 接 收 到 一 个 来 自 客户 端的 消息 时 ， 它 就 会 调用 handle() 方 法 。 而 StreamRequestHandler 


类 将 输入 和 输 吕 





























出 套 接 字 看 作 类 似 文 件 的 对 象 ， 因 此 我 们 将 使 用 readline0 来 获取 客户 端 消息 ， 





并 利用 write0 将 字符 串 发 送 回 客户 端 。 











因此 ， 在 客户 端 和 服务 器 代码 中 ， 需 要 额外 的 回 车 和 换行 符 。 实 际 上 ， 在 代码 中 你 不 会 











看 到 它 ， 因 为 我 们 只 是 重用 那些 来 自 客 户 端的 符号 。 除 了 这 些 细微 的 差别 之 外 ， 它 看 起 来 就 


像 以 前 的 服务 器 
第 17 一 19 





行 


























最 后 的 代码 利用 给 定 的 主机 信息 和 请 求 处 理 类 创建 了 TCP 服务 器 。 然后， 无限 循 环 地 等 
符 并 服务 于 客户 端 请 求 。 


2.5.2 ”创建 SocketServerTCP 客户 端 


如 示例 2-9 所 示 ， 这 里 的 客户 端 很 自然 地 非常 像 最 初 的 客户 端 ， 比 服务 器 像 得 多 ， 但 必 
须 稍 微调 整 它 以 使 其 与 新 服务 器 很 好 地 工作 。 
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示例 2-9 SocketServer EJE TCP 客户 端 CtsTcIntS S.py) 


这 是 一 个 时 间 戳 Toe 客户 端 ， 它 知道 如 何 与 类 似 文 件 的 SocketServer 类 StreamRequest Handler 对 象 通信 。 




















#!/usr/bin/env python 


from socket import * 


l 
2 
3 
4 
5 HOST = 'localhost' 
6 PORT = 21567 

7 BUFSIZ = 1024 

8 ADDR = (HOST, PORT) 

9 

10 while True: 

11 tcpCliSock = socket(AF INET, SOCK STREAM) 


12 tcpCliSock.connect(ADDR) 
13 data = raw input('» ') 
14 if not data: 
15 break 
16 tcpCliSock.send('%s\r\n' % data) 
17 data = tcpCliSock.recv(BUFSIZ) 
18 if not data: 
19 break 
20 print data.strip() 
21 tcpCliSock.close() 
逐 行 解释 
第 1 一 8 行 














这 里 没有 什么 特别 之 处 ， 这 是 复制 原来 客户 端的 代码 。 

第 10—21 行 

SocketServer 请 求 处 理 程序 的 默认 行为 是 接受 连接 、 获 取 请 求 ， 然 后 关闭 连接 。 由 于 这 
个 原因 ， 我 们 不 能 在 应 用 程序 整个 执行 过 程 中 都 保持 连接 ， 因 此 每 次 向 服务 器 发 送 消息 时 ， 
都 需要 创建 一 个 新 的 套 接 字 。 

这 种 行为 使 得 TCP 服务 器 更 像 是 一 个 UDP 服务 器 。 然 而 ， 通 过 重 写 请 求 处 理 类 中 适当 
的 方法 就 可 以 改变 它 。 不 过 ， 我 们 将 其 留 作 本 章 末尾 的 一 个 练习 。 
除了 客户 端 现在 有 点 “由 内 而 外 ”( 因 为 我 们 必须 每 次 都 创建 一 个 连接 ) 这 个 事实 之 外 ， 
其 他 一 些小 的 区 别 已 经 在 服务 器 代码 的 逐 行 解释 中 给 出 : 因为 这 里 使 用 的 处 理 程序 类 对 待 套 
接 字 通信 就 像 文 件 一 样 ， 所 以 必须 发 送行 终止 符 〈 回 车 和 换行 符 )。 而 服务 器 只 是 保留 并 重用 
这 里 发 送 的 终止 符 。 当 得 到 从 服务 器 返回 的 消息 时 , 用 strip0 函 数 对 其 进行 处 理 并 使 用 由 print 
声明 自动 提供 的 换行 符 。 


2.5.3 执行 TCP 服务 器 和 客户 端 


yo 


这 里 是 SocketServer TCP 客户 端的 输出 。 
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这 是 服务 器 的 输出 。 























$ tsTclntSS.py 

» 'Tis but a scratch. 

[Tue Apr 18 20:55:49 2006] 'Tis but a scratch. 
» Just a flesh wound. 

[Tue Apr 18 20:55:56 2006] Just a flesh wound. 


> 


$ 





Co 


$ tsTservSS.py 


waiting for connection... 
..connected from: ('127.0.0.1', 53476) 
..connected from: ('127.0.0.1', 53477) 


此 时 的 输出 与 最 初 的 TCP 客户 端 和 服务 器 的 输出 类 似 。 然 而 ， 你 应 该 会 发 现 ， 
了 服务 器 两 次 。 


2.6 *Twisted 框架 介绍 


Twisted 是 一 个 完整 的 事件 驱动 的 网 络 框架 , 利用 它 既 能 




















JE 





























我 们 连接 





使 用 也 能 开发 完整 的 异步 网 络 应 














和 协议 。 " 写本 书 时 ， 因 为 它 还 不 是 Python 标准 库 的 一 部 分 ， 所 以 必须 单独 下 载 并 



























































安装 它 ( 可 以 使 用 本 章 末尾 的 链接 )。 它 提供 了 大 量 的 支持 来 建立 完整 的 系统 , 包括 网 络 协议 、 


AE. uM 
了 参数 、 


命令 行 





使 


与 SocketServer 类 似 ，Twisted 的 大 部 分 功能 都 存在 


们 将 使 用 Twisted 因特网 组 件 中 的 reactor 和 protocol 子 包 中 的 类 。 





H 














ER 
GUI 集成 工具 包 等 。 


mH 
































身份 验证 、 聊 天 / IM、DBM 及 RDBMS 数据 库 集成 、Web/ 因 特 网 、 




















电子 邮件 、 








H Twisted 来 实现 简单 的 例子 ， 有 点 小 题 大 做 ， 但 是 你 必须 开始 使 用 它 ， 寺 
程序 就 相当 于 网 络 应 用 程序 的 “hello world”. 






































2.6.1 创建 Twisted Reactor TCP 服务 器 






































是 异步 的 。 现 在 就 让 我 们 看 一 下 服务 器 代码 。 


示例 2-10 Twisted Reactor 时 间 戳 TCP 服务 器 (tsTservTW.py) 


这 是 一 个 时 间 惟 TcP 服务 器 ， 它 使 用 了 Twisted Internet 类 。 


l 
5 




















#!/usr/bin/env python 











F 且 该 应 用 





于 它 的 类 中 。 特 别 是 对 于 该 示例 ， 我 








E 写 了 一 些 方法 。 男 外 ， 


你 会 发 现 示例 2-10 中 的 代码 类 似 于 SocketServer 例子 中 的 代码 。 然 而 ， 相 比 于 处 理 程序 


类 ， 我 们 创建 了 一 个 协议 类 ， 并 以 与 安装 回调 相同 的 方式 习 











这 个 例子 
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from twisted.internet import protocol, reactor 
from time import ctime 


3 
4 
5 
6 PORT = 21567 
7 
8 


class TSServProtocol (protocol .Protocol): 


9 def connectionMade(self): 

10 clnt = self.clnt = self. . transport. getPeer().host 
11 print '...connected from:', clint 

12 def dataReceived(self, data): 

13 self.transport.write('[%s] %s' % ( 

14 ctime(), data)) 


16 factory = protocol.Factory() 

17 factory.protocol = TSServProtocol 
18 print 'waiting for connection...' 
19 reactor.listenTCP(PORT, factory) 
20 reactor.run() 


逐 行 解释 


第 1 一 6 行 

设置 行 代码 包括 常用 模块 导入 ， 尤 其 是 twisted.internet 的 protocol 和 reactor 子 包 以 及 常 
数 端 口号 的 设置 。 

第 8—144T 

HULL is protocol AARTEN A se WI TservProtoeaL eS m ES T connection Made) 
和 PARC Oe 当 一 个 客户 端 连 接 到 服务 器 时 就 会 执行 connectionMade() 方 法 ， 
而 当 服 务 器 接收 到 客户 端 通过 网 络 发 送 的 一 些 数据 时 就 会 调用 dataReceived() 方 法 。 
reactor 会 作为 该 方法 的 一 个 参数 在 数据 中 传输 ,这 样 就 能 在 无 须 自 己 提 取 它 的 情况 下 访 
问 它 。 

此 外 ， 传 输 实例 对 象 解决 了 如 何 与 客户 端 通信 的 问题 。 你 可 以 看 到 我 们 如 何在 
connectionMade0 中 使 用 它 来 获取 主机 信息 ， 这 些 是 关于 与 我 们 进行 连接 的 客户 端的 信息 ， 以 
及 如 何在 dataReceived0 中 将 数据 返回 给 客户 端 

第 16 一 20 行 

在 服务 器 代码 的 最 后 部 分 中 ， 创 建 了 一 个 协议 工厂 。 它 之 所 以 被 称 为 工厂 ， 是 因为 每 次 
得 到 一 个 接 入 连接 时 ， 都 能 “制造 ”协议 的 一 个 实例 。 然 后 在 reactor 中 安装 一 个 TCP 监听 
器 ， 以 此 检查 服务 请 求 。 当 它 接收 到 一 个 请 求 时 ， 就 会 创建 一 个 TSServProtocol 实例 来 处 理 
那个 客户 端的 事务 。 


2.6.2 创建 Twisted Reactor TCP Ze Pig 
与 SocketServer TCP 客户 端 不 同 ， 示 例 2-11 看 起 来 与 其 他 客户 端 都 不 同 ， 这 个 是 明显 的 


Twisted. 
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Z| 





示例 2-11 Twisted Reactor RJEJE TCP 客户 端 (tsTcintTW.py) 
[TEE EB TAS I TA TcP 客户 端 ， 只 是 从 一 个 Twisted 的 角度 来 写 的 。 


























#!/usr/bin/env python 


l 

2 

3 from twisted.internet import protocol, reactor 
4 

5 HOST = 'localhost' 

6 PORT = 21567 

7 

8 class TSCIntProtocol(protocol.Protocol): 

9 def sendData(self): 

10 data - raw input('» ') 

11 if data: 

12 print '...sending Xs...' % data 

13 self.transport.write(data) 

14 else: 

15 self.transport.loseConnection() 

16 

17 def connectionMade(self): 

18 self.sendData() 

19 

20 def dataReceived(self, data): 

21 print data 

22 self.sendData() 

23 

24 class TSCIntFactory(protocol.ClientFactory): 
25 protocol = TSCIntProtocol 

26 clientConnectionLost = clientConnectionFailed = \ 
27 lambda self, connector, reason: reactor.stop() 
28 


29 reactor.connectTCP(HOST, PORT, TSClIntFactory() 


30 reactor.run() 


第 1~6 行 
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再 一 次 ， 除 了 导入 Twisted 组 件 之 外 ， 并 没有 什么 新 内 容 。 它 与 其 他 的 客户 端 非常 类 似 。 














类 似 于 服务 器 ， 我 们 通过 重 写 connectionMadeO0 和 dataReceived() 方 法 来 扩展 Protocol, 
并 且 这 两 者 都 会 以 与 服务 器 相同 的 原因 来 执行 。 男 外 ， 还 添加 了 自己 的 方法 sendData0， 当 

















需要 发 送 数 据 时 就 会 调用 它 。 
因为 这 次 我 们 是 客户 端 ， 
行 第 一 步 ， 即 发 送 一 条 消息 。 
服务 器 发 送 男 一 个 消息 。 











以 上 行为 会 在 一 个 循环 ! 


























所 以 我 们 是 开启 与 服务 器 对 话 的 一 端 。 一 旦 建立 了 连接 ， 就 进 
服务 器 回复 之 后 ， 我 们 就 将 接收 到 的 消息 显示 在 屏幕 上 ， 并 向 





























继续 ， 直 到 当 提示 输入 时 我 们 不 输入 任何 内 容 来 关闭 连接 。 此 


时 ， 并 非 调 用 传输 对 象 的 write0) 方 法 发 送 另 一 个 消息 到 服务 器 ， 而 是 执行 1oseConnection0) 来 





关闭 套 接 字 。 当 发 4 
结束 脚本 执行 。 此 外 ， 如 果 
了 么 也 会 停止 reactor。 
脚本 的 最 后 部 分 创建 了 一 个 客户 
实例 化 了 客户 端 工厂 ， 而 不 是 将 其 传递 给 reactor, 1 





3 
在 


注意 ， 这 是 

















RFA 
BH 














这 是 
创建 一 个 新 的 协议 对 象 。 
而 服务 器 


I 








E 这 种 情况 时 ， 将 调 
因为 某 些 其 他 的 


第 2 章 网 络 编程 


























Mui 一 























i 





LM 








因为 我 们 不 是 服务 器 ， 需 要 等 待 客户 
因为 我 们 是 一 个 客户 六 








的 工厂 则 创建 一 个 来 与 我 们 通信 。 












































2.6(03 执行 TCP 服务 器 和 客户 端 
与 其 他 客户 端 类 似 ，Twisted 客户 端 也 展示 了 输出 。 


$ tsTclntTW.py 
» Where is hope 





...Sending Where is hope... 


[Tue Apr 


» When words fail 


...Sending When words fail... 





[Tue Apr 
> 


$ 











8 23:53:09 2006] Where is hope 


8 23:53:14 2006] When words fail 
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的 clientConnectionLost() 77 1X; ELA & f 1E. reactor, 
因而 导致 系统 调用 了 clientConnectionFailed(), 


[三 ， 创 建 了 一 个 到 服务 器 的 连接 并 运行 reactor。 
FE 如 我 们 在 服务 器 上 所 做 的 那 
端 与 我 们 通信 ， 并 且 它 的 工厂 为 每 一 次 连接 都 
崩 ， 所 以 创建 单个 连接 到 服务 器 的 协议 对 象 ， 





服务 器 恢复 到 单个 连接 。Twisted 会 保持 连接 ， 在 每 条 消息 发 送 后 不 会 关闭 传输 。 


“connection from ”的 输出 并 不 包含 其 他 信息 , 因 











$ tsTservTW.py 





waiting for connection... 


...Connected from: 127.0.0.1 





方法 请 求 了 主机 /地 址 。 


需要 记 住 的 是 ， 大 多 数 基于 Twisted 的 应 月 
是 一 个 功能 丰富 的 库 ， 但 是 它 确实 有 一 定 


2.7 


表 
程序 时 
管理 套 








的 连接 。select0 函 数 将 会 阻塞, 直到 



























































相关 模块 


2-4 列 出 了 其 他 一 些 与 网 络 和 
， 经 常 配合 使 用 select 模块 和 
它 所 做 的 最 有 
至 少 有 一 个 套 接 字 已 经 为 通信 做 好 准备 ， 而 当 划 








接 字 对 象 集合 。 














1 套 接 字 纺 











的 复杂 度 ， 所 以 你 需要 做 好 准备 。 






































的 

































































个 事情 就 是 接收 





程序 都 比 本 节 给 出 的 例子 更 加 复杂 。 






































为 我 们 只 从 服务 器 传输 对 象 的 getPeer() 





程 有 关 的 Python 模块 。 当 开发 低级 套 接 字 
socket 模块 。select 模块 提供 了 select0 函 数 ， 该 函数 
套套 接 字 ,并 监听 它们 活动 


发 生 时 ， 
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它 将 提供 一 组 准备 好 读 信息 的 集合 〈 它 还 可 以 确定 哪些 套 接 字 准备 好 写 入 ， 虽 然 它 不 像 前 一 
种 操作 那么 常见 )。 
表 2-4 网 络 / 套 接 字 编 程 相 关 模 块 
模 块 描 xh 
socket 正如 本 章 讨 论 的 ， 它 是 低级 网 络 编程 接 
asyncore/asynchat 提供 创建 网 络 应 用 程序 的 基础 设施 ， 并 异步 地 处 理 客户 端 
select 在 一 个 单线 程 的 网 络 服务 器 应 用 中 管理 多 个 套 接 字 连接 
SocketServer 高 级 模块 ， 提 供 网 络 应 用 程序 的 服务 器 类 ， 包 括 forking 或 threading fe 
在 创建 服务 器 方面 ，async* 和 SocketServer 模块 都 提供 更 高 级 的 功能 。 它 们 以 socket 和 / 











或 select 模块 为 基 耐 























更 像 并 行 处 型 
虽然 在 标准 
比 旧版 本 更 力 











[15 




















本 ， 但 是 Twisted 提供 了 一 个 更 加 
上 找到 更 多 关于 Twisted 的 消息 。 
更 现代 化 的 网 络 框架 ， 





http://twistedmatrix.com 网 站 J 


是 一 个 











Concurrence 


Concurrence 是 一 个 搭配 了 libevent 的 





Concurrence 是 一 个 异步 模型 ， 它 使 


ss 


























了 所 有 的 底层 代码 。 你 需要 做 的 所 有 工作 就 是 以 
面 所 提 到 的 ，SocketServer 甚至 提供 了 将 线程 或 新 进程 集成 到 服务 器 的 功能 ， 它 提供 了 一 个 
的 客户 端 请 求 的 流程 。 
E 库 中 async* 提 供 了 1 
大 的 第 三 方 包 Twisted. 














编写 ， 能 够 使 客户 端 /服务 器 系统 开发 更 加 迅速 ， 
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因为 它们 已 经 自动 处 理 






































惟一 的 异步 天 
然 本 章 中 我 们 已 经 
的 框架 ， 并 且 
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强大 和 灵活 











自己 的 方式 创建 或 继承 适当 的 


F 发 支持 ， 但 是 在 前 一 节 中 ， 我 们 引入 了 一 个 


已 经 


Le 














Ze 


类 。 正 如 前 





到 的 示例 代码 稍 长 于 狂 糙 的 脚 


实现 了 很 多 协议 。 可 以 在 
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已 是 荷兰 社交 网 络 Hyves 的 后 台 引 擎 。 
MERE VO 系统 ,libevent 是 一 个 低级 事件 
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调调 度 系 统 。 
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j 轻 量 级 线程 〈 执 行 回 调 ) 




















F 驱 动 的 方式 进行 线程 间 
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通信 和 消息 传递 工作 。 可 以 在 http://opensource.hyves.org/concurrence 网 址 找到 更 多 关于 
Concurrence 的 信息 。 

现代 网 络 框架 遵循 众多 异步 模型 (greenlet、generator 等 来 提供 高 性 能 异步 服务 器 。 
这 些 框 架 的 其 中 一 个 目标 就 是 推动 异步 编程 的 复杂 性 ， 以 允许 用 户 以 一 种 更 熟悉 的 同步 方式 
进行 编码 。 

本 章 介 绍 的 主题 主要 是 在 Python 中 利用 套 接 字 进 行 网 络 编程 , 以 及 如 何 使 用 低层 协议 套 
4E Cli TCP/IP 和 UDP/P) 创建 自 定 义 应 用 程序 。 如 果 你 想 开发 高 级 Web 和 网 络 应 用 程序 ， 
BATHE DRIES 3 章 ， 或 者 跳 到 本 书 第 2 部 分 。 





2.8 练习 


2-1 




















HB ORI 




















6 描述 这 个 术语 的 意 1 





套 接 字 。 面 向 连接 的 套 接 字 和 无 连接 套 接 字 之 间 的 区 别 是 什么 ? 
2-2 客户 端 /服务 器 架构 。 月 


思 ， 并 给 出 几 个 例子 。 
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2- ZF. TCP 和 UDP 之 中 ， 哪 种 类 型 的 服务 器 接受 连接 ， 并 将 它们 转换 到 独立 的 


2-4 


2-5 


2-6 


2-7 


2-8 


2-9 
2-10 
2-11 














套 接 字 进 行 客户 端 通信 ? 
客户 端 。 更 新 TCP (tsTclnt.py) 和 UDP 











(sUclntpy) 客户 端 ， 以 使 得 服务 器 名 称 

















无 须 便 编码 到 应 用 程序 中 。 此 外 , 应 该 允许 用 户 指定 主机 名 和 端口 号 ， 
了 参数 丢失 ， 那 么 应 该 使 用 默认 值 。 

网 络 互 连 和 套 接 字 。 实 现 Python 库 参 考 文档 中 关于 socket 模块 中 的 TCP 客户 端 / 
首先 运行 服务 器 ， 然 后 启动 客户 端 。 也 











中 任何 一 个 或 者 全 间 








服务 器 程序 示例 ， 并 使 其 能 够 正常 工作 。 











以 在 http://docs.python.org/library/socket#example [| LL! 




















服务 器 的 功能 太 单 


AA 
命令 。 





如 果 你 觉得 示例 
多 功能 ， 令 其 能 够 识别 以 下 



































周 ， 那 么 可 以 更 新 服务 器 代码 ， 以 使 它 

















如 果 二 者 
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找到 在 线 源 码 。 
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录 ，os.curdir 是 当前 目 












































的 文件 清单 。 











date 服务 器 将 返回 其 当前 日 期 /时 间 惟 ， 即 time.ctime(). 
os 获取 操作 系统 信息 Cos.name). 
ls 列 出 当前 目录 文件 清单 (提示 : os.listdir0 列 出 一 个 
录 )。 选 做 题 : 接受 ls dir 命令 ， 返 回 dir 目录 
你 不 需要 一 个 网 络 来 完成 这 个 任务 ， 因 为 











MES m 
VT TE S 


尔 的 计算 机 可 以 与 自己 通信 。 




















口 已 绑 定 ”的 错误 提示 。 此 外 ， 操 作 系统 通常 会 在 5 分 钟 内 清除 绑 定 ， 所 以 请 而 
心 等 待 。 





Daytime 服务 。 使 用 socket.getservbyname 


在 服务 器 退出 之 后 , 在 再 次 运行 它 之 前 必须 清 





除 它 的 绑 定 。 否则 , 可 能 会 遇 到 “ 端 
























































0 来 确定 使 用 UDP 协议 的 “daytime” 服 








务 的 端口 号 。 检 查 getservbyname0) 的 文档 以 获得 其 准确 的 使 用 语法 ( 即 socket. 




















getservbyname. doc_)。 那 么 ， 现 在 编写 一 个 应 





























程序 ， 使 该 应 用 程序 能 够 通过 网 














络 发 送 一 条 虚拟 消息 ， 然 后 等 待 服务 器 
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一 旦 你 收 到 服务 器 的 回复 , 就 将 其 显 








Ro 











示 到 屏幕 上 。 

















半 双 工 聊 天 。 创 建 一 个 简单 的 半 双 工 聊 天 程序 。 指 定 半 双 工 ， 我 们 的 意思 就 是 ， 当 建 
































Ai“ ee A 
之 前 必须 等 待 消息 。 并 且 , 一 旦 发 送 者 发 送 
必须 等 待 对 方 回 复 。 其 中 ， 一 位 参与 者 ; 


























全 双 工 聊天 。 更 新 上 一 个 练习 的 解决 方案 ， 











服务 开始 后 ， 只 有 一 个 人 能 打字 ， 而 另 一 个 参与 者 在 得 到 输入 消息 提示 





了 一 条 消息 , 在 他 能 够 再 次 发 送 消息 之 前 ， 


各 在 服务 器 一 侧 ， 而 另 一 位 在 客户 端 一 侧 。 








修改 它 以 使 你 的 聊天 服务 现在 成 为 全 双 














工 模式 ， 意 味 着 通信 两 端 都 可 以 发 送 并 接收 消息 ， 并 且 二 者 相互 独立 。 








多 用 户 全 双 工 聊天 。 进 一 步 修改 你 的 解决 方案 ， 以 使 
尔 的 聊天 服务 支持 多 用 户 和 多 房间 功能 。 


多 用 户 、 多 房间 、 全 双 工 聊天 。 现 在 让 





























尔 的 RA HS AP 





聊天 月 














口 





Web 客户 端 。 编 写 一 个 TCP 客户 端 ， 使 
任何 后 续 信 息 ， 只 使 用 主机 名 ) 的 80 端 











连接 到 你 最 喜欢 的 网 站 (删除 “http:/” 和 
一 旦 建立 一 个 连接 ， 就 发 送 HTTP 命令 














字符 串 GET/m， 并 将 服务 器 返回 的 所 有 

















数据 


写 入 一 个 文件 中 (GET 命令 会 检索 一 个 
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2-12 


2-13 


2-14 


2-15 


2-16 




















Web WH, /file 表明 要 获取 的 文件 ， 将 命令 发 送 到 服务 器 )。 检查 检索 到 的 文件 的 内 
容 。 内 容 是 什么 ?你 如 何 检 查 能 确保 所 接收 到 的 数据 是 正确 的 ? (注意 : 你 可 能 必须 
在 命令 字符 串 后 面 插 入 一 个 或 两 个 换行 符 ， 通 常 一 个 就 能 正常 工作 ) 
睡眠 服务 器 。 创 建 一 个 睡眠 服务 器 。 客 户 端 将 请 求 一 段 时 间 之 后 进入 睡眠 状态 。 
服务 器 将 代表 客户 端 发 送 命令 , 然后 向 客户 端 返 回 一 条 表明 成 功 的 消息 。 客 户 端 应 
该 睡眠 或 空间 所 请 求 的 时 间 长 度 。 这 是 一 个 远程 过 程 调用 的 简单 实现 , 此 过 程 中 一 
个 客户 端的 请 求 会 通过 网 络 调用 另 一 台 计 算 机 上 的 命令 。 

名 称 服务 器 。 设 计 并 实现 一 个 名 称 服务 器 。 该 服务 器 负责 维护 一 个 包含 主机 名 - 端 
口号 对 的 数据 库 , 也 许 还 有 对 应 服务 器 所 提供 的 服务 的 字符 串 描述 。 针 对 一 个 或 多 
个 现 有 的 服务 器 ,注册 它们 的 服务 到 你 的 名 称 服务 器 中 (注意 ,在 这 种 情况 下 ， 这 
些 服 务 器 是 名 称 服 务 器 的 客户 端 )。 
每 个 启动 的 客户 端 都 不 知道 它们 所 寻找 的 服务 器 地 址 。 同 样 地 , 对 于 名 称 服务 器 的 
客户 端 来 说 , 这 些 客户 端 应 该 发 送 一 个 请 求 到 名 称 服务 器 ,以 指示 它们 正在 寻找 什 
么 类 型 的 服务 。 作 为 回复 ， 名 称 服务 器 会 向 该 客户 端 返 回 一 个 主机 名 -端口 号 对 ， 
然后 该 客户 端 就 可 以 连接 到 适当 的 服务 器 来 处 理 它 的 请 求 。 

选 做 题 : 

1) 为 名 称 服务 器 添加 缓存 流行 请 求 的 功能 。 
2) 为 你 的 名 称 服务 器 添加 日 志 记 录 功 能 ， 跟 踪 哪 些 服务 器 注册 了 名 称 服务 器 ， 以 
及 客户 端正 在 请 求 哪些 服务 。 
3) 你 的 名 称 服务 器 应 该 定期 通过 相应 的 端口 号 ping 已 经 注册 的 主机 ， 以 确保 它们 
的 服务 确实 处 于 开启 状态 。 反复 的 失败 将 会 导致 名 称 服务 器 将 其 从 服务 列表 中 划 去 。 
你 可 以 为 那些 注册 了 名 称 服务 器 的 服务 器 实现 真正 的 服务 ,或 者 仅仅 使 用 虚拟 服务 
器 《仅仅 应 答 一 个 请 求 )。 

错误 检查 和 优雅 的 关闭 。 本 章 所 有 的 客户 端 /服务 器 示例 代码 都 缺乏 错误 检查 功 
能 。 我 们 并 没有 处 理 以 下 几 种 场景 ,例如 ,用 户 按 Ctrl+C 快捷 键 退出 服务 器 或 Ctrl+D 
快捷 键 终止 客户 端 输入 , 也 没有 检查 其 他 对 raw_inputO 的 不 适当 输入 或 处 理 网 络 错 
误 。 因 为 这 个 缺陷 , 经常 我 们 终止 一 个 应 用 程序 时 并 没有 关闭 套 接 字 , 很 可 能 会 导 
致 丢 失 数 据 。 本 练习 中 ， 在 示例 中 选择 一 对 客户 端 / 服 务 器 程序 ， 并 添加 足够 的 错 
误 检查 ， 这 样 每 个 应 用 程序 就 能 正确 地 关闭 ， 即 关闭 网 络 连接 。 
异步 性 和 SocketServer/socketserver。 使 用 TCP 服务 器 的 示例 ， 并 使 用 其 中 一 个 
mix-in 类 来 支持 一 个 异步 服务 器 。 为 了 测试 你 的 服务 器 , 同时 创建 并 运行 多 个 客户 
端 ， 并 交叉 显示 你 的 服务 器 满足 二 者 中 请 求 的 输出 。 

* 扩 展 SocketServer 类 o Œ SocketServer TCP 服务 器 代码 中 ,我 们 不 得 不 从 原始 
的 基础 TCP 客户 端 中 修改 客户 端 ， 因 为 SocketServer 类 没有 维护 多 个 请 求 之 间 
的 连接 。 
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a) 继承 TCPServer 和 StreamRequestHandler 类 并 重新 设计 服务 器 ， 使 其 能 够 为 每 个 客户 
端 维持 并 使 用 单个 连接 〈 而 不 是 每 个 请 求 一 个 连接 )。 
b) 将 前 面 练习 的 解决 方案 集成 到 〈a) 部 分 中 的 方案 中 ， 这 样 就 可 以 并 行为 多 个 客户 端 
提供 服务 。 
2-17 * 异 步 系 统 。 研 究 至 少 $ 个 基于 Python 的 不 同 异步 系统 , 可 以 从 Twisted. Greenlets « 
Tornado, Diesel, Concurrence, Eventlet, Gevent 等 中 选择 。 描 述 它们 是 什么 ， 对 
它们 进行 分 类 ， 并 找到 它们 之 间 的 相似 点 和 差异 性 ， 然 后 创建 一 些 演示 代码 示例 。 







































































CHAPTER 





第 3 章 ”因特网 客户 端 编程 


履 水 难 收 。 同 理 ， 上 传 到 网 上 的 信息 也 是 无 法 彻底 删除 的 。 
— Joe Garrelli，1996 年 3 月 


本 章 内 容 : 

因特网 客户 端 简介 ; 
文件 传输 ; 
网 络 新 闻 ; 
电子 邮件 ; 
相关 模块 。 




















第 2 Be 





了 使 月 








客户 端 /服务 








协议 和 
ET 
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新 闻 组 CNNTP)、 发 送 电子 邮件 CSMTP)、 从 服务 器 上 下 载 ! 
的 工作 方式 与 第 2 章 介绍 的 客户 端 /服务 器 
底层 的 协议 创建 了 新 的 、 有 专门 月 





























第 3 章 


昌 套 接 字 的 底层 网 络 通 信 协 议 。 这 种 类 型 的 网 络 是 当今 因 
协议 的 核心 。 这 些 网 络 协议 分 别 用 于 文件 传输 FTP, SCP 等 )、 阅 读 Usenet 

















的 例子 相似 。 





3.1 因特网 客户 端 简介 


在 介绍 




















究 这 些 1 
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因特网 到 
些 情况 下 称 为 “生产 者 -消费 者 ”( 虽 然 这 个 概念 
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提供 服务 ， 而 客户 


协议 之 前 ， 7 
来 传输 数据 的 地 方 ， 数 据 在 月 











BT NET] 














特 网 客户 站 
RAGE 
EH 
服务 。 对 特定 的 月 
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端 使 朋 
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等 )， 但 有 多 个 消费 者 (就 像 之 前 














底层 的 套 接 字 创建 
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议 的 API JE 
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因特网 客户 端 ， 但 模型 是 完全 相同 的 。 
特 网 协议 ， 并 创建 相应 的 客户 端 程序 。 
相似 。 这 些 相似 性 在 设计 之 初 衣 





看 的 客户 端 /月 




















i 到底 是 什么 ” 
者 和 服务 使 
昌 于 描述 操作 系统 方面 的 内 容 )。 上 月 
一 般 只 有 一 个 服务 器 《〈 即 ; 
民 务 器 模型 


,为 了 





因特网 客 
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网 中 大 部 分 


75 














E CPOP3, IMAP) 等 。 
唯一 区 别 在 了 











F 现 在 使 用 TCP/IP 


昌 途 的 协议 ， 以 此 来 实现 刚刚 介绍 的 高 层 服务 。 
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答 这 个 问题 ， 
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j 者 之 间 传 输 。 在 某 
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考虑 到 了 ， 因 
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然 现在 不 再 





通过 这 些 程序 会 发 现 这 些 协 








为 保持 接口 的 一 致 性 有 很 大 的 


























好 处 。 更 
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的 客户 端 程 
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EXER 








的 是 ， 还 学 会 了 如 何 为 这 些 协议 

















3.2 ”文件 传输 
3.2.1 文件 传输 因特网 协议 











于 在 因 
(UUCP)、 H 
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在 当下 ， 


下 载 以 及 访问 Web 
F} 传 输 请 求 都 





HTTP 文人 
而 scp # 
不 能 上 传 或 1 














因特网 中 最 常见 的 奸 
特 网 上 传输 文人 
AF Web 的 超 文本 传输 协议 (HTTP). 54h, WE (UNIX 下 的 ) 远程 
令 rcp《〈 以 及 更 安全 、 更 灵活 的 scp 和 rsync). 
仍然 非常 广泛 。HTTP 3 








HTTP. FTP. scp/r 





























Il rsync 需要 月 


F 载 文人 








服务 ， 一 般 客户 端 无 须 登录 就 可 以 访问 朋 
j 于 获取 网 页 〈 即 将 网 页 文件 下 载 到 本 地 )。 


户 登录 到 服务 器 主机 。 在 传输 文件 之 前 必须 验 订 


























4 应 





sync 上 














Fo FIP 5 scp/rsync 相同 ， 它 也 可 以 上 传 或 下 载 文 从 














创建 真正 的 客户 端 程 序 。 虽 然 本 章 只 会 详细 








其 中 三 个 协议 ， 但 在 学 习 完 本 章 后 ， 读 者 会 有 足够 的 信心 和 能 力 写 出 各 
序 。 


和 情 就 是 传输 文件 。 文 件 传输 每 时 每 刻 都 在 发 生 。 有 很 多 协议 可 以 月 
最 流行 的 包括 文件 传输 协议 (FTP)、UNIX 到 UNIX Af 





E 何 因特网 协议 











H 
HiX 
文件 复制 




















FE 要 月 





Hos as EAC PE AM 








H+ xk 


客户 端的 身份 
NET. 








F Web 的 文件 
服务 。 大 部 分 








否则 
JY UNIX 的 多 


















































日 户 需 要 输入 有 效 的 月 





昌 户 名 和 和 密码。 但 FTP EAH 








F 匿 名 登录 。 现 在 来 深入 了 解 FIP。 
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EH 











月 应 








主题 





3.2.2 文件 传输 协议 


文件 传输 协议 (File Transfer Protocol, FTP) 由 已 故 的 Jon Postel 和 Joyce Reynolds 开发 ， 





记录 在 RFC (Request for Comment) 959 号 文档 中 ， 
名 下 载 公共 文件 , 也 可 以 月 
而 文件 存储 系统 使 





íi 


MER 





















































UNIX 












































名 是 “anonymous 


























” 密码 一 般 是 











TP Agr 




















相当 于 公开 某 些 





的 情况 下 。 早 在 Web 流行 之 前 ，FTP 就 
以 及 下 载 软件 和 源 代 码 的 主要 手段 之 一 。 
前 面 提 到 过 ，FTP 要 求 输入 
户 匿名 登录 。 不 过 管理 员 要 先 设置 FIP 服务 器 以 允许 匿名 
电子 邮件 地 址 。 与 向 特定 的 登录 


























T 1985 年 10 月 发 布 。FTP 主要 用 于 匿 
日 于 在 两 台 计 算 机 之 间 传 输 文件 , 特别 是 在 使 用 





进行 工作 ， 





Windows 









































it 是 在 因 














特 网 上 i 





行文 件 传 


j 户 名 和 密码 才能 访问 远程 FTP 服务 器 , 但 也 允许 没有 账号 的 
j 户 登录 。 这 时 ， 匿 名 用 户 的 用 户 






































目录 让 大 家 访问 ,但 与 登录 月 


日 户 相 比 , 匿名 


























图 3-1 展示 了 这 个 协议 ， 其 工作 流程 如 下 。 


l. 客户 端 连接 远程 主机 上 的 FTP 服务 器 。 


2. 客户 端 输入 






































3. 客户 端 ; 





















































户 名 和 密码 (ak “anonymous” Fill 
行 各 种 文件 传输 和 信息 查询 操作 。 














尼子 邮件 地 上 )。 








般 情 况 下 的 流程 。 有 时 ， 由 于 网 络 两 边 计算 机 的 崩溃 或 网 络 的 问题 ， 






































4. 客户 端 从 远程 FTP 服务 器 退出 ， 结 束 传输 。 
当然 ， 这 只 是 

导致 整个 传输 在 完成 之 前 就 中 断 。 如 果 客 户 端 

就 会 超时 并 中 断 。 
在 底层 ，FTP 只 使 


端 /服务 器 编程 中 的 特殊 情况 。 因 


是 控制 和 命令 端口 (21 号 端口 )， 另 一 个 是 数 











D 














前 面 说 “有 时 ”是 因 
数据 端口 。 在 服务 器 把 20 号 端口 
在 被 动 模式 下 ， 服 务 器 只 























3- 





] TCP 〈 见 第 2 章 )， 而 不 使 






































FTP 客 户 端 





为 这 里 的 客户 端 和 服务 器 都 使 ) 








户 传输 文件 不 同 ， 这 
TP R REEL ARES LS FIP 命令 。 





* 


um 15 分 钟 (900 秒 ) 还 没有 响应 ，FTP 连接 








] UDP。 男 外 ， 可 以 将 FTP 看 作客 户 
两 个 套 接 字 来 通信 : 

















一 不 














21 








20 (主动 ) 或 
N (被 动 ，N>1023) 





1 因 
















































































特 网 上 的 FTP 客户 端 和 服务 器 。 客 
通过 FTP 协议 通信 ， 而 数据 通过 数据 端 


设置 为 数据 端口 
是 告诉 客户 端 随机 的 数据 端口 


居 端 口 (有 时 是 20 号 端口 )， 如 图 3-1 所 示 。 


FTP 服 务 器 








户 端 与 服务 器 在 命令 与 控制 庙 


















































传输 





为 FTP 有 两 种 模式 : 主动 和 被 动 。 只 有 在 主动 模式 下 服务 器 才 使 用 
后 ， 它 “主动 ”连接 客户 端的 数据 端口 。 而 


























号 ， 客 户 端 必须 3 











动 建立 数据 连接 。 





























的 因特网 











协议 OP 

















FIP 在 内 的 大 多 数据 


be 
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v6) dib——1 
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77 





Pa 





在 这 种 模式 下 ，FTP 服务 器 在 建立 数据 连接 时 是 “被 动 ” 的 。 最 后 ， 现 在 已 经 有 了 一 和 有 
的 被 动 模式 来 支持 第 6 版 本 上 
Python 已 经 支持 了 包括 


JL RFC 2428. 



































































































































3.2.4 ftplib.FTP 类 的 方法 




















K 3-1 列 出 了 最 常 月 








的 方法 ， 





xv XH 






























































































































































扩展 





因特网 协议 .可 以 在 http://docs.python. 











org/lib/internet.html 中 找到 支持 各 个 协议 的 客户 端 模块 。 现 在 看 看 用 Python 创建 因特网 客户 
端 程序 有 多 么 容易 。 
3.2.3 Python 和 FTP 
那么 如 何 用 Python 编写 FTP 客户 端 程序 呢 ? 其 实 之 前 已 经 提 到 过 一 些 了 ， 现 在 还 要 添 
加 相应 的 Python 模块 导入 和 调用 操作 。 再 回顾 一 下 流程 。 
1. 连接 到 服务 器 。 
2. 登录 。 
3. 发 出 服务 请 求 〈 和 希望 能 得 到 响应 )。 
4. 退出 。 
在 使 用 Python 的 FTP 支持 时 , 所 需要 做 的 只 是 导入 ftplib 模块 , 并 实例 化 一 个 ftplib.FTP 
类 对 象 。 所 有 的 FTP 操作 (如 登录 、 传 输 文件 和 注销 等 ) 都 要 使 用 这 个 对 象 完成 。 
下 面 是 一 段 Pytho 伪 代 码 。 
from ftplib import FTP 
f = FTP('some.ftp.server') 
f.login('anonymous', 'your@email.address') 
f are () 
在 看 真实 的 例子 之 前 ， 先 熟悉 一 下 代码 中 会 用 到 的 ftplib.FTP 类 的 方法 。 


F 不 全 面 ( 要 了 解 所 有 的 方法 , 请 参阅 模块 源 代码 )， 


































































































但 这 里 列 出 的 方法 涵盖 了 Python 中 进行 FTP 客户 端 编程 所 需 的 API。 也 就 是 说 ， 其 他 方法 不 
是 必需 的 ， 因 为 其 他 方法 要 么 提供 辅助 或 管理 功能 ， 要 么 提供 这 些 API 使 用 。 
表 3-1 FTP 对 象 的 方法 
洒 ak JE Ok 

login(user='anonymous', | 登录 FTP 服务 器 ， 所 有 参数 都 是 可 选 的 

passwd=", acct=") 

pwd() 获得 当前 工作 目录 

ewd(path) 把 当前 工作 目录 设置 为 path 所 示 的 路 径 

dir ([path[,...[,cb]]) 显示 path 目录 里 的 内 容 ， 可 选 的 参数 cb 是 一 个 回调 函数 ， 会 传递 给 retrlines() 方 法 

nlst ([path[,...]) 与 dir0 类 似 ， 但 返回 一 个 文件 名 列表 ， 而 不 是 显示 这 些 文件 名 
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CHR) 
方 ”法 HE x 
retrlines(cmd [, cb]) 给 定 FTP 命令 Cul “RETR flename”)， 用 于 下 载 文本 文件 。 可 选 的 回调 函数 cb 用 于 处 理 文件 的 每 一 行 
retrbinary(cmd, 与 retrlines() 类 似 , 只 是 这 个 指令 处 理 二 进 制 文件 。 回 调 函数 cb 用 于 处 理 每 一 块 ( 块 大 小 默认 为 8KB) 























cb[,bs-8192[, ra]]) 下 载 的 数据 






































给 定 FIP 命令 (如 “STOR filename”), 





storlines(cmd, f) 





来 上 传 文本 文件 。 要 给 定 一 个 文件 对 象 f 








storbinary(cmd, f 



































































































































[bs=8192]) 与 storlines() 类 似 , 只 是 这 个 指令 处 理 二 进 制 文件 。 要 给 定 一 个 文件 对 象 f, 上 传 块 大 小 bs 默认 为 8KB 

rename(old, new) 巴 远 程 文件 old 重 命 名 为 new 

delete(path) | 除 位 于 path 的 远程 文件 

mkd(directory) 创建 远程 目录 

rmd(directory) | 除 远 程 目录 

quit() 关闭 连接 并 退出 

在 一 般 的 FTP 事务 中 ， 要 使 用 到 的 指令 有 loginO. cwdO. dir). pwdO. stor*(). retr*() 

和 quit. K 3-1 中 没有 列 出 的 一 些 FTP 对 象 方法 也 很 有 用 。 关 于 FIP 对 象 的 更 多 信息 ， 请 




















参阅 http://docs.python.org/library/ftplib#ftp-objects 中 的 Python 文档 


3.2.5 ”交互 式 FTP 示例 






































15 


是 在 几 年 前 
































在 Python 中 使 用 FTP 非常 简单 ， 甚 至 都 不 
地 看 到 操作 步骤 和 输出 。 下 面 这 个 示例 会 话 
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本 ， 直 接 在 交互 式 解 释 器 ， 


























做 的 。 现 在 这 个 示例 已 经 无 法 工作 , KÆ) 


>>> from ftplib import FTP 
FTP('ftp.python.org') 
>>> f.login('anonymous', 


来 演示 与 1 























>>> 工 = 
'guido@python.org') 
'230 Guest login ok, access restrictions apply.' 
>>> f.dir() 


total 38 














2000 .. 





bin 
dev 
etc 

















就 能 实时 





python.org 还 支持 FTP 服务 器 的 时 候 
FE 在 运行 的 FTP 服务 器 进行 交互 的 情形 。 


lib -> usr/lib 


mot 
pub 
usr 


drwxrwxr-x 10 1075 4127 512 May 17 2000 . 
drwxrwxr-x 10 1075 4127 512 May 17 
drwxr-xr-x 3 root wheel 512 May 19 1998 
drwxr-sr-x 3 root 400 512 Jun 9 1997 
drwxr-xr-x 3 root wheel 512 May 19 1998 
lrwxrwxrwx 1 root bin 7 Jun 29 1999 
C a an guido 4127 52 Mar 24 2000 
drwxrwsr-x 8 1122 4127 512 May 17 2000 
drwxr-xr-x 5 root wheel 512 May 19 1998 
>>> f.retrlines('RETR motd') 

Sun Microsystems Inc. SunOS 5.6 


'226 Transfer complete. 
>>> f.quit() 
'221 Goodbye.' 


d 


Generic August 1997 
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3.2.6 客户 端 FTP 程序 示例 
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前 面 提 到 过 ， 如 果 直 接 在 交互 环境 中 使 用 FTP 就 无 须 编写 脚本 。 但 下 面 还 是 编写 一 段 脚 





























本 ， 用 来 从 Mozilla 的 网 站 下 载 最 新 的 Bugzilla 代码 。 示 例 3-1 就 用 来 完成 这 个 工作 。 虽 然 这 
里 在 尝试 编写 一 个 应 用 程序 ， 但 读者 也 可 以 交互 式 地 运行 这 段 代 码 。 这 个 程序 使 用 FTP 库 下 











载 文件 ， 其 中 也 包含 一 些 错误 检查 。 


示例 3-1 FTP 下 载 示例 (getLatestFTP.py) 


这 个 程序 用 于 下 载 网 站 中 最 新 版 本 的 文件 。 读 者 可 以 修改 这 个 程序 ， 用 来 下 载 其 他 内 容 。 
#!/usr/bin/env python 












































l 

2 

3 import ftplib 
4 import os 

5 import socket 
6 

7 

8 

9 


HOST = 'ftp.mozilla.org' 
DIRN = 'pub/mozilla.org/webtools' 
FILE = 'bugzilla-LATEST.tar.gz' 
10 
11 def main(): 
12 try: 
13 f = ftplib.FTP(HOST) 
14 except (socket.error, socket.gaierror) as e: 
15 print 'ERROR: cannot reach "%s"' % HOST 
16 return 
17 print '*** Connected to host "%s"' % HOST 
18 
19 try: 
20 f.login(O 
21 except ftplib.error perm: 
22 print 'ERROR: cannot login anonymously’ 
23 f.quit(Q 
24 return 
25 print '*** Logged in as "anonymous"' 
26 
27 try: 
28 f.cwd(DIRN) 
29 except ftplib.error perm: 
30 print 'ERROR: cannot CD to "9s"' 96 DIRN 
31 f.quitQO 
32 return 
33 print '*** Changed to "%s" folder' % DIRN 
34 
35 try: 
36 f.retrbinary('RETR %s' % FILE, 
37 open(FILE, 'wb').write) 
38 except ftplib.error perm: 
39 print 'ERROR: cannot read file "Xs"' % FILE 
40 os.unlink(FILE) 
4l else: 
42 print '*** Downloaded "%s" to CWD' % FILE 
43 f.quitQ 
44 
45 if name == ' main ' 
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不 过 脚本 并 不 会 自动 运行 ， 需 要 手动 运行 才 会 下 载 代码 。 如 果 使 用 的 是 类 UNIX 系统 ， 
可 以 设 定 一 个 cron 作业 来 自动 下 载 。 另 一 个 问题 是 ， 如 果 需 要 下 载 的 文件 的 文件 名 或 目录 名 

















被 修改 了 ， 程 序 就 无 法 正常 工作 。 


























如 果 运 行 脚本 时 没有 出 错 ， 则 会 得 到 如 下 输出 。 


$ getLatestFTP.py 





*** Connected to host "ftp.mozilla.org" 


*** Logged in as "anonymous" 
*** Changed to "pub/mozilla.org 
*** Downloaded "bugzilla-LATEST 
$ 


逐 行 解 释 
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/webtools" folder 
.tar.gz" to CWD 




















代码 前 几 行 导入 要 用 的 模块 (主要 用 于 抓 取 异 常 对 象 )， 并 设置 一 些 常 量 。 











er 


第 11~44 行 
main) KAALA FILE: 创建 一 个 




















然后 返回 。 如 果 发 生 任何 错误 就 退出 。 接 着 尝试 用 “anonymous” 登 录 ， 如 果 不 行 就 结束 (第 























FIP 对 象 ， 尝 试 连接 到 FIP 服务 器 CS 12—17 £3. ， 











19~25 行 )。 下 一 步 就 是 转 到 发 布 目录 (827-33 行 )， 最 后 下 载 文件 〈 第 35—44 4) 。 


























在 第 14 行 和 本 书 中 其 他 的 异常 处 理 程 序 中 ， 需 要 保存 异常 实例 e。 对 于 Python 2.5 或 更 






































老 的 版 本 ， 需 要 将 as 改 为 逗号 ， 因 为 这 里 使 用 的 是 从 Python 2.6 引入 的 新 语法 。Python 3 只 




















会 理解 如 第 14 行 所 示 的 新 语法 。 














在 第 35 一 36 行 ， 向 retrbinary0 传 递 了 一 个 回调 函数 ,每 接收 到 一 块 二 进 制 数 据 的 时 候 都 











会 调用 这 个 回调 函数 。 这 个 函数 就 是 创建 文件 的 本 地 版 本 时 需要 用 到 的 文件 对 象 的 write() 方 





法 。 传 输 结束 时 ，Python 解释 器 会 自动 关闭 这 个 文件 对 象 ， 因 此 不 会 丢失 数据 。 虽 然 很 方便 









































但 最 好 还 是 不 要 这 样 做 , 作为 一 个 程序 员 
































而 不 是 依赖 其 他 代码 来 完成 释放 操作 。 这 里 应 该 把 开放 的 文件 对 象 保存 到 一 个 变量 (如 变量 











， 要 尽量 做 到 在 资源 不 再 被 使 用 的 时 候 就 立即 释放 ， 



































loc)， 然 后 把 loc.write 传 给 ftp.retrbinary(). 
完成 传输 后 ， 调 用 loc.close0。 如 果 由 于 某 些 原因 无 法 保存 文件 ， 则 移 除 空 的 文件 来 避免 弄 乱 

















文件 系统 第 40 行 )。 在 os.unlink(FILE) 两 侧 添 加 一 些 错 误 检 查 代码 ， 以 应 对 文件 不 存在 的 情况 。 


















































最 后 ,为 了 避免 另外 两 行 〈 第 43—44 行 ) 关闭 FTP 连接 并 返回 , 使 用 了 else 语句 (48 35~42 行 )。 











第 46—47 4T 
这 是 运行 独立 脚本 的 惯用 方法 。 


3.2.7 FTP 的 其 他 内 容 












































Python 同时 支持 主动 和 被 动 模式 。 注 








意 ， 在 Python 2.0 及 以 前 版 本 中 ， 被 动 模式 默认 是 








关闭 的 ， 在 Python 2.1 及 以 后 版 本 中 ， 默 认 是 打开 的 。 
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以 下 是 一 些 典 型 的 FTP 客户 
命令 行 客户 端 程序 : 使 月 
输 ， 月 














端 类 型 。 

一 些 FTP 客户 站 
户 可 以 在 命令 行 中 交互 式 执行 FTP 传输 。 
GUI 客户 端 程序 :与 命令 行 客户 端 程序 相似 ， 但 它 是 一 个 GUI 程序 ， 如 WS_FTP, 














Filezilla, CuteFTP. Fetch, SmartFTP. 
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DLAN: 





Web 浏 除了 使 月 
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程序 (如 /bin/ftp 或 NcFTP) 进行 FTP f£ 


H HTTP 之 外 ， 大 多 数 Web 浏览 器 〈 











WA HH 


pur 














要 使 























息 (以 明文 方式 ) 放 在 URL 


et. URL/URI 的 第 一 部 分 就 月 
] HTTP 作为 与 指定 网 站 传输 数据 的 协议 。 通 过 人 
H HTTP 的 网 页 URL 很 像 (当然 ，“ftp://” 














]FTP 的 请 求 ， 如 “ftp://blahblah”， 这 与 使 月 
后 面 的 “blahblah” 可 以 展开 为 “host/path?attributes”)。 如 
E , UN: “ftp://user:passwd Ghost /path?attr1=val 


H 








自 定 义 应 用 程序 A 





己 编写 的 ) 




















用 程序 ， 一 般 这 包 
ix 4 种 客户 


端 类 型 都 可 以 
也 可 以 






































程序 不 允许 / 
Python 编 











HRA AT BEA 











JF FTP 文件 传输 的 程序 。 这 些 
] 户 与 服务 器 交互 。 
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进行 FIP 传输 。 在 urllib 的 内 














部 也 导入 并 使 用 了 ftplib， 因 








的 基础 上 ， 


























FTP 不 仅 可 以 用 于 下 载 应 


程序 ， 还 可 以 月 
































个 工程 师 或 系统 管理 
把 文件 放 到 一 个 能 从 外 部 访问 
或 数 
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在 FIP 协议 定义 / 规范 
http://tools.ietf.org/html/rfc959 f 








的 服务 器 | 
居 库 文件 时 ， 这 种 方法 的 开销 就 太 大 了 ， 因 为 需要 考虑 安 
如 果 只 是 想 写 一 个 FTP 程序 来 在 下 班 后 自动 移动 文件 ，] 
(RFC 959) 中 ， 可 以 得 





的 协议 ， 如 


ftplib 来 创建 了 一 个 自 定义 应 
在 命令 行 
至 Swing (要 导入 相应 
创建 一 个 完整 的 GUI 程序 。 最 后 ， 可 以 使 用 Python 的 urllib 模块 来 解析 FTP 的 URL 并 
此 urllib 也 是 ftplib 的 客户 端 。 

















也 称 为 客户 端 ) 可 以 进行 FTP 
“http://blahblah”。 这 就 告诉 浏 
你 改 协 议 部 分 ， 就 可 以 发 送 使 











果 要 登录 ， 





用 户 可 以 把 登录 信 
1&attr2-vaD. . .". 
于 特殊 目的 的 应 
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还 可 以 使 用 一 些 GUI 工 
的 Python 或 Jython 的 接 
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于 在 不 同系 统 之 间 传 输 文 件 。 上 
E 员 ， 需 要 传输 文件 。 在 跨 网 络 的 时 候 ， 显 然 可 以 使 用 scp 或 rsync 命令 ,或 者 
上 。 不 过 ， 在 一 个 安全 网 络 的 内 部 机 器 之 间 移 动 大 量 的 日 志 
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ll www.network sorcery.com/enp/protocol/ftp.htm. 


那么 使 用 Python 
到 关于 FTP 的 更 多 








Ei. 
AE 


上 如， 如 果 读 者 
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天 缩 、 解 压缩 等 因 
个 非常 好 的 主意 。 

BR, HB 
他 相关 的 RFC 


素 。 








AE. J 
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AE 


























包括 2228. 2389. 2428. 2577. 2640. 4217. XT Python 的 更 多 FTP 支持 ， 可 以 访问 这 个 页 
M: http://docs.python.org/library/ftplib。 


3.3 网 络 新 闻 


3.3.1 Usenet 与 新 闻 组 





Usenet 新 闻 系统 是 一 个 全 球 存档 的 “: 






































歌 到 政治 ， 从 自然 语言 学 到 计算 


Liu. AS 




















SU. SCR 


包子 公告 


F 到 硬件 ， 从 种 植 到 京 禾 、 招 聘 /应 聘 、 音 乐 、 


FE 题 的 新 闻 组 一 应 俱全 ， 从 诗 














魔术 、 相 亲 等 。 新 闻 组 可 以 面向 全 球 ， 也 可 以 只 面向 某 个 特定 区 域 。 
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用 主题 





整个 系统 是 一 个 日 





















































的 计算 机 上 ， 再 


每 个 人 都 收 到 这 个 帖子 为 
系统 管理 员 来 指定 ， 也 可 以 六 和 





Hix Heirs 








日 大 量 计算 机 组 成 的 庞大 的 全 球 网 络 ， 计 香 
子 。 如 果 某 个 用 户 发 了 一 个 帖子 到 本 地 的 Usenet iHi 


























机 之 间 


LE Usenet 上 的 帖 
机 上 ， 这 个 帖子 会 被 传 所 

















到 其 他 相连 























机 传 到 与 它们 相连 的 计算 机 上 ， 直 到 这 个 帖子 传播 到 了 全 世界 ， 








EF。 帖子 在 Usenet 上 的 存活 时 间 是 有 限 的 ， 这 个 时 间 可 以 由 

















每 个 系统 都 有 一 个 已 “订阅 ”的 新 闻 组 列表 ， 系 统 只 接收 / 
接收 服务 器 上 所 有 新 闻 组 的 帖子 。Usenet 新 闻 组 的 内 容 晶 
也 有 一 些 服务 只 允许 特定 用 户 使 
































会 进行 一 些 设置 来 要 求 用 户 


Usenet 正在 逐渐 退 昌 
是 它 的 网 络 协议 。 
老 的 Usenet 使 月 














H UUCP 作为 其 网 络 传输 机 


占 子 指定 一 个 过 期 的 日 期 /时 间 。 








av, WA 





























ME 




















输入 














j 户 名 和 和 密码， 管理 员 也 可 以 设置 


上 人们 的 视线 ， 主 要 被 在 线 论 坛 蔡 代 。 但 


趣 的 新 闻 组 里 的 
提供 者 安排 ,很 多 服务 都 是 公开 的 。 但 
j， 例 如 付费 用 户 、 特 定 大 学 的 学 生 等 。Usenet 系统 管理 员 可 能 


ESIN 


























是 否 只 能 上 传 或 只 能 下 载 。 





Usenet 














M. We 
































依然 值得 在 这 上 





EA. TES 


























il, 在 20 世纪 80 年 代 中 期 出 现 了 另 一 个 网 络 


协议 TCP/IP， 之 后 大 部 分 网 络 流 量 转 向 使 用 TCP/AP。 下 一 节 将 介绍 这 个 新 的 协议 。 
3.3.2 ”网 络 新 闻 传 输 协 议 







































































用 户 使 用 网 络 新 闻 传输 协议 (NNTP) 在 新 闻 组 中 下 载 或 发 表 帖 子 , 该 协议 由 Brain Kantor 
(加 州 大 学 圣地 亚 哥 分 校 ) 和 Phil Lapsley (加 州 大 学 伯克利 分 校 ) 创建 并 记录 在 RFC 977 中 ， 
T 1986 年 2 月 公布 。 其 后 在 2000 年 10 月 公布 的 RFC 2980 中 对 该 协议 进行 了 更 新 。 








作为 客户 端 /服务 器 架构 的 另 一 个 例子 ，NNTP 与 FIP 的 操作 方式 相似 ， 但 更 简单 。 
不 同 的 端口 ， 而 NNTP 只 使 用 











FIP 中 ， 登 录 、 





























NNTP 
Ara» 
OR P» 











3-2 








传输 数据 和 控制 需要 使 












































通信 。 用 户 向 服务 器 发 送 一 个 请 求 ， 服 务 器 就 做 出 相应 的 响应 ， 如 


因特网 上 的 Usenet 





(更 新 ) 




















在 





























图 3-2 所 示 。 


NNTP 
服务 器 









NNTP 





(更 新 ) 














因特网 上 的 NNTP 客户 端 和 服务 器 。 客 户 端 主要 阅读 新 闻 ， 
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时 也 发 帖子 











个 标准 端口 119 来 








。 文 章 会 在 服务 器 之 间 做 同步 
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3.3.3 Python 和 NNTP 


由 于 之 前 已 经 有 了 Python 和 FTP 的 经 验 ， 读 者 也 许可 以 猜 到 ， 有 一 个 nntplib 库 和 一 个 
需要 实例 化 的 nntplib.NNTP 类 。 与 FIP 一 样 ， 所 要 做 的 就 是 导入 这 个 Python 模块 ， 然 后 调 
相应 的 方法 。 先 大 致 看 一 下 这 个 协议 。 



































1. 连接 到 服务 器 。 
2. 登录 (根据 需要 )。 
3. 发 出 服务 请 求 。 
4. 退出 。 
是 不 是 有 点 熟悉 ? 是 的 , 这 与 FTP 协议 极其 相似 。 唯 一 的 区 别 是 根据 NNTP 服务 器 配置 
的 不 同 ， 登 录 这 一 步 是 可 选 的 。 

下 面 是 一 段 Python 伪 代 码 。 


from nntplib import NNTP 











H 
Li 
H 
Li 























n = NNTP('your.nntp.server') 


r,c,f,l,g = n.group('comp.lang.python') 


n.quit () 
一 般 来 说 ， 登 录 后 需要 调用 group(0 方 法 来 选择 一 个 感 兴趣 的 新 闻 组 。 该 方法 返回 服务 器 的 

复 、 文 章 的 数量 、 第 一 篇 和 最 后 一 篇 文章 的 ID、 新 闻 组 的 名 称 。 有 了 这 些 信息 后 ， 就 可 以 做 一 些 

其 他 操作 ， 如 从 头 到 尾 浏览 文章 、 下 载 整个 帖子 《文章 的 标题 和 内 容 )， 或 者 发 表 一 篇 文章 等 。 
在 看 真实 的 例子 之 前 ， 先 介绍 一 下 nntplib.NNTP 类 的 一 些 常 用 方法 。 


3.3.4 nntplib.NNTP 类 方法 
与 前 一 节 列 出 ftplib.FTP 类 的 方法 时 一 样 ， 这 里 不 会 列 出 nntplib.NNTP 的 所 有 方法 ， 只 
列 出 创建 NNTP 客户 端 程序 时 可 能 用 得 到 的 方法 。 


GR 3-1 所 示 的 FIP 对 象 一 样 ， 表 3-2 中 没有 提 到 其 他 NNTP 对 象 的 方法 。 为 了 避免 混 
乱 ， 这 里 只 列 出 了 可 能 用 得 到 的 。 其 余 内 容 建议 参考 Python 库 手册 。 
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# 3-2 NNTP 对 象 的 方法 
方 ”法 Ho x 
group(name) 选择 一 个 组 的 名 字 ， 返 回 一 个 元 组 (rsp,ctfsblsbgroup)， 分 别 表示 服务 器 响应 信息 、 文 章 数量 、 第 一 个 和 
最 后 一 个 文章 的 编号 、 组 名 ， 所 有 数据 都 是 字符 串 。( 返 回 的 group 与 传 进去 的 name 应 该 是 相同 的 ) 
xhdr(hdr, artrg[, ofile]) | 返回 文章 范围 artrg (k - 尾 ” 的 格式 ) 内 文章 hdr 头 的 列表 ， 或 把 数据 输出 到 文件 ofile 中 


body(id [, ofile]) 根据 id 获取 文章 正文 ，id 可 以 是 消息 的 ID 〈 放 在 尖 括 号 里 )， 也 可 以 是 文章 编号 〈 以 字符 串 形 式 表 
示 ), 返回 一 个 元 组 (rsp, anum, mid, data), 分 别 表 示 服 务 器 响应 信息 、 文 章 编号 (以 字符 串 形式 表示 )、 
消息 人 D〈 放 在 尖 括 号 里 )、 文 章 所 有 行 的 列表 ， 或 把 数据 输出 到 文件 ofile 中 
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(BER) 
A ”法 HO 
head(id) 与 body0 类 似 ， 返 回 相 同 的 元 组 ， 只 是 返回 的 行列 表 中 只 包括 文章 标题 
article(id) 司 样 与 bodyO 类 似 ， 返 回 相 同 的 元 组 ， 只 是 返回 的 行列 表 中 同时 包括 文章 标题 和 正文 
stat(id) 让 文章 的 “指针 ”指向 这 《〈 即 前 面 的 消息 ID 或 文章 编号 )。 返 回 一 个 与 body0 相 同 的 元 组 (rsp, anum, 
mid)， 但 不 包含 文章 的 数据 
next() 法 和 stat0 类 似 ， 把 文章 指针 移 到 篇 文章 ， 返 回 与 stat0 相 似 的 元 组 
last() 法 和 stat0 类 似 ， 把 文章 指针 移 到 最 后 一 篇 文章 ， 返 回 与 stat0 相 似 的 元 组 
post(ufile) 上 传 ufile 文件 对 象 里 的 内 容 〈 使 用 ufile.readline() )， 并 发 布 到 当前 新 闻 组 中 
quit() 关闭 连接 并 退出 





3.3.5 ZEA NNTP 示例 


这 里 是 一 个 使 用 Python 的 NNTP 库 的 交互 式 示例 。 它 看 上 去 与 交互 式 的 FIP 示例 差 不 
多 (出 于 隐私 的 原因 ， 修 改 了 其 中 的 电子 邮件 地 EF )。 
在 调用 表 3-2 中 所 列 的 group0 方 法 来 连接 到 一 个 组 的 时 候 , 会 得 到 一 个 长 度 为 5 的 元 组 。 


>>> from nntplib import NNTP 































































































>>> n = NNTP('your.nntp.server') 
>>> rsp, ct, fst, lst, grp = n.group('comp.lang.python') 
>>> rsp, anum, mid, data = n.article('110457') 
>>> for eachLine in data: 
print eachLine 
From: "Alex Martelli" <alex@...> 
Subject: Re: Rounding Question 
Date: Wed, 21 Feb 2001 17:05:36 +0100 
"Remco Gerlich" <remco@...> wrote: 
> Jacob Kaplan-Moss <jacob@...> wrote in comp.lang.python: 
>> So I've got a number between 40 and 130 that I want to round up to 
>> the nearest 10. That is: 
>> 
>> 40 --> 40, 41 --» 50, ..., 49 --> 50, 50 --» 50, 51 --» 60 
» Rounding like this is the same as adding 5 to the number and then 
> rounding down. Rounding down is substracting the remainder if you were 


» to divide by 10, for which we use the $ operator in Python. 





This will work if you use +9 in each case rather than +5 (note that he 
doesn't really want rounding -- he wants 41 to 'round' to 50, for ex). 
Alex 

>>> n.quit () 

'205 closing connection - goodbye!' 

>>> 
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示例 3-2 
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中 的 NNTP 客户 端 示 例 中 会 尝试 更 复杂 的 内 容 。 在 之 前 的 FTP 客户 端 示 例 中 下 

















载 的 是 最 新 的 内 容 。 与 之 类 似 ， 这 里 也 下 载 Python 语言 新 闻 组 com.lang.python 里 最 新 的 一 


篇 文章 。 














下 载 完成 后 ， 会 显示 文章 的 前 20 行 ， 而 且 是 前 20 行 
那些 非 引 用 的 文本 〈 引 用 以 “>” 或 “|” 开 头 )， 也 不 是 像 这 样 的 文本 “In article <. . .>， 














soAndSo@some.domain wrote:”。 


最 后 要 智能 处 理 空 行 。 在 文章 中 出 现 一 个 空 行 时 ， 我 们 就 显示 一 个 空 行 ， 但 如 果 有 多 个 


则 只 显示 一 个 空 行 。 只 有 含有 真实 数据 的 行 才 入 


连续 的 空 行 ， 








意义 的 内 容 。 





意义 的 内 容 是 指 



































多 可 能 显示 39 行 输出 ，20 行 实际 数据 与 19 个 空 行 交 义 显示 。 


示例 3-2 NNTP 下 载 示例 (getFirstNNTP.py) 


这 个 脚本 下 载 并 显示 Python 新 闻 组 comp.lang.python 4 


CeOEADMSEWN— 


#!/u 


impo 
impo 
HOST 
GRNM 


USER 
PASS 


def 


在 “前 20 行 ”之 
































sr/bin/env python 


rt nntplib 
rt socket 


'your.nntp.server' 
'comp.lang.python' 
'wesley' 
'youllNeverGuess' 


main(): 


try: 
n = nntplib.NNTP(HOST) 
#, user-USER, password=PASS) 

except socket.gaierror as e: 
print 'ERROR: cannot reach host "%s"' % HOST 
print ' ("96s")' % eval(str(e)) [1] 
return 

except nntplib.NNTPPermanentError as e: 
print 'ERROR: access denied on "%s"' % HOST 
print ' ("95s")' 96 str(e) 
return 

print '*** Connected to host "%s"' % HOST 


try: 

rsp, ct, fst, Ist, grp = n.group(GRNM) 
except nntplib.NNTPTemporaryError as ee: 

print 'ERROR: cannot load group "%s"' % GRNM 


print ' ("%s")' % str(e) 
print ' Server may require authentication' 
print ' Uncomment/edit login line above' 


n.quit() 
return 


。 所 以 ， 最 


最 新 一 篇 文章 的 前 20 个 “有 意义 的 ” 行 。 
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35 except nntplib.NNTPTemporaryError as ee: 
36 print 'ERROR: group "%s" unavailable' % GRNM 
37 print ' C"%s")' % str(e) 
38 n.quit() 
39 return 
40 print '*** Found newsgroup "%s"' % GRNM 
41 
42 rng = '%s-%s' % (lst, Ist) 
43 rsp, frm = n.xhdr('from', rng) 
44 rsp, sub = n.xhdr('subject', rng) 
45 rsp, dat = n.xhdr('date', rng) 
46 print '''*** Found last article (#%s): 
47 
48 From: %s 
49 Subject: %s 
50 Date: %s 
51 '''% (lst, frm[0][1], sub[0][1], dat[0][1]) 
22 
53 rsp, anum, mid, data = n.body(lst) 
54 displayFirst20(data) 
55 n.quit() 
56 
57 def displayFirst20(data): 
58 print '*** First (<= 20) meaningful lines:\n' 
59 count = 0 
60 lines = (line.rstrip() for line in data) 
61 lastBlank = True 
62 for line in lines: 
63 if line: 
64 lower = line.lower() 
65 if (lower.startswith('»') and not \ 
66 lower.startswith('>>>')) or \ 
67 lower.startswith('|') or \ 
68 lower.startswith('in article') or \ 
69 lower.endswith('writes:') or \ 
70 lower.endswith('wrote:'): 
71 continue 
72 if not lastBlank or (lastBlank and line): 
73 print ' %s' % line 
74 if line: 
75 count += 1 
76 lastBlank = False 
77 else: 
78 lastBlank - True 
79 if count == 20: 
80 break 
81 
82 if name == ' main ': 
83 main() 
如 果 脚 本 运行 正常 ， 可 能 会 看 到 这 样 的 输出 。 





$ getLatestNNTP.py 


*** Connected to host "your.nntp.server" 


*** Found newsgroup "comp.lang.python" 
*** Found last article (#471526): 


From: 
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"Gerard Flanagan" <grflanagan@...> 


Subject: Re: Generate a sequence of random numbers that sum up to 1? 


Date: 


*** First 


Sat Apr 22 10:48:20 CEST 2006 


(<= 20) meaningful lines: 


def partition(N-5): 


vals = 


vals - [0] 


sorted( 


random.random() for _ in range(2*N) ) 


+ vals + [1] 


for j in range (2*N+1): 


yield vals[j:j+2] 


deltas = [ 


x[1]-x[0] for x in partition() ] 


print deltas 


print sum (deltas) 


[0.10271966686994982, 
0.11906452454467387, 
0.11785369256442912, 
0.077786747076205365, 


1.0 
$ 


这 个 输出 显示 了 新 闻 组 | 








From: 
Subject: Re: Genera 
Date: Sat Apr 22 10 


Groups: 


0.13826576491042208, 
0.10501198456091299, 
0.065927165520102249, 

0.099139810689226726] 


0.064146913555132801, 
0.011732423830768779, 
0.098351305878176198, 





占 子 的 原始 内 容 ， 如 下 所 示 。 


"Gerard Flanagan" <grflanagan@...> 


te a sequence of random numbers that sum up to 1? 
:48:20 CEST 2006 


comp.lang.python 





Gerard Flanagan wro 


ce: 


» Anthony Liu wrote: 

» » I am at my wit's end. 

» » I want to generate a certain number of random numbers. 

» » This is easy, I can repeatedly do uniform(0, 1) for 

» » example. 

» » But, I want the random numbers just generated sum up 

pompe ul 

»» I am not sure how to do this. Any idea? Thanks. 

Bf LxNG Uit el IAN rU he cox seni a eon esr etx cO NRI e V rine a vtr ies 
» import random 

> def partition(start-0,stop-1,eps-5): 

> d = stop - start 

> vals = [ start + d * random.random() for _ in range(2*eps) ] 
> vals = [start] + vals + [stop] 

> vals.sort() 

> return vals 

> P = partition() 

> intervals = [ P[i:i*2] for i in range(len(P)-1) ] 


87 


























88 第 1 部 分 通用 应 用 主题 
> deltas = [ x[1] - x[0] for x in intervals ] 
» print deltas 


» print sum(deltas) 


def partition(N-5): 


vals sorted( 


[0] + vals + [1] 


random.random() for _ 


vals 
for j in range (2*N+1): 
yield vals[j:j+2] 


deltas [ x[1]-x[0] for x in partition () 
print deltas 

print sum (deltas) 
[0.10271966686994982, 
0.11906452454467387, 
0.11785369256442912, 


0.077786747076205365, 


0.13826576491042208, 
0.10501198456091299, 
0.065927165520102249, 









































in range(2*N) ) 


] 


0.064146913555132801, 


0.011732423830768779, 


0.098351305878176198, 


0.099139810689226726] 























1.0 
当然 ， 由 于 新 文章 会 不 断 出 现 ， 因 此 输出 内 容 始终 会 发 生变 化 。 只 要 服务 器 里 一 有 文章 
更 新 ， 输 出 内 容 就 会 发 生变 化 。 

逐 行 解释 

第 1~9 行 

程序 首先 包含 一 些 import 语句 并 定义 一 些 常 量 ， 与 FTP 客户 端 示例 相似 。 

第 11~40 行 

在 第 一 部 分 ， 尝 试 连接 到 NNTP 主机 服务 器 ， 如 果 失 败 就 退出 CB13—419 . 5881511 




















意 注释 掉 了 ， 如 果 需 要 输入 用 户 名 和 
接着 尝试 读 取 指 定 的 新 闻 组 。 同 样 ， 丸 
需要 身份 验证 ， 就 退 
第 42—55 T 
这 一 部 分 读 取 并 


























H 
L 











E (56 26~40 íP 。 











显 








0 密码 进行 身份 验证 ， 可 以 局 
[ 果 新 闻 组 不 存在 ， 或 服务 器 没有 保存 这 个 新 闻 组 ， 或 

















用 这 一 行 并 修改 第 14 行 。 

















示 一 些 头 消息 〈 第 42 一 51 行 )。 最 有 用 的 头 消息 包括 作者 、 主 题 、 












































日 期 。 程 序 会 读 取 这 些 数 据 并 显示 给 




































































] 户 。 每 次 调 








 xhdr() 方 法 时 ， 都 要 给 定 想 要 提取 消 
























































息 头 的 文章 的 范围 。 因 为 这 里 只 想 获 取 一 条 消息 ， 所 以 范围 就 是 “X-X”， 其 中 X 是 最 新 
一 条 消息 的 号 码 。 

xhdr0 方 法 返回 一 个 长 度 为 2 的 元 组 ， 其 中 包含 了 服务 器 的 响应 〈rsp) 和 指定 范围 的 消 
息 头 的 列表 。 因 为 只 指定 了 一 个 消息 (最 新 一 条 )， 所 以 只 取 列 表 的 第 一 个 元 素 (hdr[0])。 数 
据 元 素 是 一 个 长 度 为 2 的 元 组 ， 其 中 包含 文章 编号 和 数据 字符 串 。 由 于 已 经 知道 了 文章 编号 
(在 请 求 中 给 出 了 )， 因 此 只 关心 第 二 个 元 素 ， 即 数据 字符 串 (hdr[0][1])。 
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最 后 一 部 分 是 下 载 文章 的 内 容 (第 53~55 行 )。 先 调用 body0 方 法 ， 然 后 至 多 显示 前 20 
个 有 意义 的 行 〈 在 该 部 分 开始 定义 的 )， 最 后 从 服务 器 注销 ， 完 成 处 理 。 

第 57~80 4T 

主要 的 处 理 任务 由 displayFirst200 函 数 完成 〈 第 57~80 7D 。 该 函数 接收 文章 的 一 些 内 
容 ， 并 做 一 些 预 处 理 ， 如 把 计数 器 清 0， 创 建 一 个 生成 器 表达 式 对 文章 内 容 的 所 有 行 做 一 些 
处 理 ， 然 后 “假装 ” 刚 碰 到 并 显示 了 一 行 空 行 〈 第 59—61 行 ， 稍 后 细 说 )。“Genexp” 添 加 
自 Python 2.4， 如 果 读 者 使 用 的 是 2.0 一 2.3 版 本 ， 需 要 将 这 两 行 改 为 列表 推导 《实际 上 ， 读 
者 不 应 该 使 用 2.4 之 前 的 版 本 )。 由 于 前 导 空 格 可 能 是 Python 代码 的 一 部 分 ， 因 此 在 去 掉 字 
符 串 中 的 空格 的 时 候 ， 只 删除 字符 串 尾随 的 空格 (rstrip0 )。 
由 于 不 想 显 示 引 用 的 文本 和 引用 文本 指示 行 ， 因 此 在 第 65 ~71 行 〈 也 包含 第 64 行 ) 使 
3 了 一 个 大 站 语句 。 只 有 在 当前 行 不 是 空 行 时 ， 才 做 这 个 检查 (第 63 行 )。 检 查 的 时 候 ， 会 
把 字符 串 转 成 小 写 ， 这 样 就 能 做 到 比较 的 时 候 不 区 分 大 小 写 (第 64 行 。 
如 果 一 行 以 “>” 或 “|” 开 头 ， 说 明 这 一 般 是 一 个 引用 。 不 过 ， 将 以 “>>>” 开 头 的 行 特 
殊 处 理 ， 因 为 这 有 可 能 是 交互 命令 行 的 提示 ， 虽 然 这 样 可 能 有 问题 ， 会 导致 显示 一 条 引用 了 
三 次 的 消息 (比如 一 段 文 本 到 第 4 个 回复 的 帖子 时 就 被 引用 了 3 次 。( 本 章 末尾 有 一 个 练习 
会 处 理 这 个 问题 )。 另 外 ， 以 “in article...” FA, V “writes:” IÈ “wrote:” €, IREA 
冒号 的 行 ， 都 是 引用 文本 。 使 用 continue 语句 跳 过 这 些 内 容 。 
现在 来 处 理 空 行 。 程 序 应 该 能 智能 处 理 并 显示 文章 中 的 空 行 。 如 果 有 多 个 连续 的 空 行 ， 
则 只 显示 第 一 个 ， 这 样 用 户 就 不 会 看 到 许多 空 行 ， 导 致 必须 滚动 才能 看 到 有 用 的 信息 。 同 时 
也 不 能 把 空 行 计算 到 有 意义 的 20 行 之 中 。 所 有 这 些 都 在 第 72 一 78 行 中 实现 。 
第 72 行 的 过 语句 表示 只 有 在 上 一 行 不 为 空 , 或 者 上 一 行为 空 但 当前 行 不 为 空 的 时 候 才 
显示 。 也 就 是 说 ， 如 果 显 示 了 当前 行 ， 就 说 明 要 么 当前 行 不 为 空 ， 要 么 当前 行为 空 但 上 一 
行 不 为 空 。 这 是 另 一 个 比较 有 技巧 的 地 方 : 如 果 遇 到 一 个 非 空 行 , 计数 器 加 1, 并 将 lastBlank 
标志 设置 为 False， 以 表示 这 一 行 非 空 〈 第 74 一 76 行 )。 和 否则， 如 果 遇 到 了 空 行 ， 则 把 标志 
设 为 True。 

现在 回 到 第 61 行 ， 先 将 lastBlank 标志 设 为 True， 因 为 如 果 内 容 的 第 一 行 ( 不 是 前 导 关 
据 或 引用 数据 ) 是 空 行 ， 则 不 会 显示 。 需 要 显示 的 第 一 行 是 实际 的 数据 。 

最 后 ， 如 果 遇 到 了 20 个 非 空 行 就 退出 ,丢弃 其 余 内 容 〈 第 79 一 80 行 )。 否则 ， 就 应 该 已 
经 遍历 了 所 有 内 容 ， 循 环 正常 结束 。 


3.3.7 NNTP 的 其 他 内 容 


关于 NNTP 的 更 多 内 容 , 可 与 阅读 NNTP 协议 定义 / 规范 (RFC 977), 参见 http://tools.ietf.org/ 
html/rfc977 和 http://www.networksorcery.com/enp/protocol/nntp.htm 页 面 。 其 他 相关 的 RFC 还 包括 


1036 和 2980。 关 于 Python 对 NNTP 的 更 多 文 持 ， 可 以 从 这 里 开始 : http://docs.python. 
org/library/nntplib - 
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34 电子 邮件 


电子 邮件 既 古 老 又 现代 。 对 于 




















看 上 去 都 非 党 


[Voice over Internet Protocol]) 等 更 新 、 更 快 的 通 


VoIP 




















z Wil a 























“古老 ”更 不 用 说 











Ti 





电子 邮件 是 如 何 了 
关 的 开发 ， 可 以 跳 到 





5 
[ee fis, 





在 介绍 : 




















BT BE 





HY d Aid 





RFC 2822 的 


对 于 一 般 























ZEE: 


ri 
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F 标 题 ， 


J POR, 
《 即 垃圾 邮 伯 
这 




















THE 
说 起 1 





定义 ,“( 电 





























点 要 特别 注意 。 


与 今 


上 架构 之 前 ， 读 者 
Fo 消 ， 
包子 邮件 ， 无 论 
F )， 都 会 想到 邮件 正文 。 不 过 RFC J 








于 网 页 的 在 线 






































于 始 使 用 因特网 的 人 来 说 ， 电 子 邮件 
聊天 、 即 时 聊天 (IM)、 数 字 电 话 ( 如 





















































信 方 式 相 比 了 。 下 面 将 从 宏观 上 介绍 














[ 作 的 。 如 果 读 者 已 经 了 解 相关 内 容 ， 只 想 学 习 












































] Python 做 电子 邮件 相 

















ESHI 





E 了 解 电子 邮 件 的 确切 定义 呢 ? 根据 








电 由 头 字 段 〈 统 称 消 


EBORE 
Fe EY 
































3.4.1 电子 邮件 系统 组 件 和 协议 


不 管 读者 是 怎么 认为 的 ， 实 际 上 电子 由 








% 件 诞生 在 现 

















] 于 在 不 同 3 
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还 没有 涉及 网 络 。 








在 网 


























JP EH 


20 世纪 80 年 代 ， 

在 深入 细节 之 
因特网 到 达 
HA) 和 一 台 接 收 计生 


过 浩瀚 的 





H 





HARET 


机 用 户 之 间 简 单 交 换 消息 。 注 
络 出 现 之 后 ， 月 





因为 这 


au 





息 标 题 ) 以 及 后 面 可 选 的 正文 组 成 ”。 


























真 的 邮件 ， 还 是 一 封 不 请 自 来 的 商业 ) 
We, 邮件 可 以 没有 





oo HH 
ABC 


有 





EX, 但 一 











代 因 特 网 出 现 之 前 。 电 子 邮 件 一 开始 


些 用 户 都 使 用 同一 台 计 算 机 ， 所 以 这 
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pi. it 


机 之 间 使 











日 不 同 的 协议 ， 











因特网 上 收发 





E T NET] 











前 ， 不 禁 想 问 ， 








电子 邮件 是 怎么 了 








[ 作 




















WL Cus 











u 











接 到 接收 计算 机 ， 这 样 就 可 以 直 
发 送 计算 机 需要 找到 某 一 台中 间 主 机 


YN 





























HE 





FXR! 


间 ， 可 能 会 有 多 台 称 为 跳板 的 主机 


机 需要 找到 一 台 离 























“护照 ”标记 


(MTA). 3X7 7EH 


{Eo MTA 就 


输 » 


的 “代理 ”。 
要 让 所 有 这 些 汪 

















， 其 中 记录 了 这 封 








接收 主机 更 


邮件 最 终 抵达 之 前 
为 了 更 清楚 地 理解 ， 先 看 看 电子 邮 作 





收 件 人 的 ?简单 点 来 说 ， 有 一 台 发 送 计算 机 发 
F 人 的 


邮件 服务 器 )。 最 好 





F 才 有 一 个 事实 上 的 统一 标准 。 


同 的 主机 之 间 交 换 消息 。 当 然 ， 由 于 
消息 交换 是 一 个 很 复杂 的 概念 。 直 到 

















的 ? 一 条 消息 是 如 何 从 发 件 人 那里 通 
牛人 的 消息 从 这 里 发 送 
的 解决 方案 是 发 送 计算 机 知道 如 何 连 















































接 把 消 妃 发 送 过 去 。 但 





实际 上 一 般 没有 这 么 顺利 。 

















而 这 台中 间 
更 近 一 些 的 主 


。 如 果 仔 细 看 看 收 到 
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Hj 
是 邮件 从 发 送 3 
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F 交 换 主机 上 运行 的 服务 器 i 
机 到 接收 了 


[ 作 起 来 ，MTA XA 
MTA; 2) 如 何 与 男 一 台 MTA 通信 。 第 一 伯 





FRÍ 





KEREY 
Wah 





主机 最 终 能 到 达 最 后 的 接收 主机 。 接 
机 。 所 以 ， 在 发 送 主机 和 接收 主机 之 
的 电子 邮件 消息 头 标题 ， 会 看 到 一 个 
Bue Ty o 

日 件 。 最 重要 的 组 件 是 消息 传输 代理 






































程 ， 它 








负责 邮件 的 路 由 、 队 列 处 理 和 发 送 工 





机 所 要 经 过 





A pA 
F 事 日 


F 事 情 : 





























的 了 


昌 域 名 服务 (DNS ) 来 查找 


机 和 “跳板 ”， 所 以 也 称 为 “消息 传 





1) 如 何 找到 消息 应 该 到 达 的 下 一 台 
目的 域名 的 MX (Mail 
































eXchange, Hif 





F 交 换 ) 来 完成 。 查 找到 的 可 能 











消息 送 到 目的 











的 主机 。 对 于 第 二 件 事 ， 








34.0 发送 


电子 邮件 








为 了 发 送 ! 























之 间 通 





在 本 节 开 始 时 就 
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` 是 最 终 收 件 人 ， 
怎么 把 消息 转 给 其 


JED H > 














MTA 














过 消息 传输 系统 CMTS) 互相 通信 。 只 有 了 两 个 MTA 都 使 月 





























说 过 , 由 于 以 前 存在 和 


























因此 这 种 通信 竺 











人 危险， 具有 不 可 预知 1 


X WEM 

















算 机 使 用 调 人 
































这 个 1 
多 不 同 的 计算 机 系统 , 每 个 系统 都 使 
性 。 更 复杂 的 是 ， 有 的 计算 机 使 用 互 连 的 网 络 ， 而 有 的 计 
岂 解 调 器 拨号 ， 消 息 的 发 送 时 间 也 是 不 可 预知 的 。 事 实 
AE 9 个 月 后 才 收 到 ! 因 特 网 的 速度 怎么 会 这 么 慢 ? BU 











而 可 能 只 是 下 


他 的 MTA We? 
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协议 时 


个 能 最 终 把 


电子 邮件 , 邮件 客户 端 必须 要 连接 到 一 个 MTA, MTA 靠 某 种 协议 进行 通信 。MTA 
p. AB 





进行 通信 。 

















不同 的 网 络 软 伯 














上 ， 作 者 


经 有 一 封 邮 件 
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复杂 性 导致 了 现代 电子 邮 从 


一 一 一 简单 邮件 传输 协议 (Simple Mail Transfer Protocol, SMTP) 的 诞生 。 


1. SMTP, ESMTP, LMTP 


SMTP J& ^H 
E8 月 公布 ， 


1982 4j 
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SMTP 和 ESMTP, 
需要 额外 的 存储 和 管理 




















I 





上 可。 这 些 都 很 基础 
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2. MTA 








E 绝 一 条 消 ， 





昌 已 故 的 Jonathan Postel (加 州 大 学 信 
其 后 有 一 些小 修改 。 在 1995 4 














公布 。 这 里 使 用 STMP 同时 表示 SMTP 和 ESMTP。 对 于 一 般 的 应 ) 
发 送 邮件 、 退 出 
还 有 其 他 的 协议 ， 如 LMTP (Local Mail Transfer Protocol， 本 地 由 
YEA RFC 2033 F 1996 年 10 月 定义 。SMTP 需要 有 一 个 邮件 队列 ， 但 这 
E. rfi LMTP 提供 了 更 轻 量 级 的 系统 ， 移 除了 对 邮件 队列 的 需求 。 














息 学 院 ) 创建 ， 记 录 在 RFC 821 rh, T 
FE 11 月 ,通过 RFC 1869, SMTP 增 
扩展 服务 ( 即 EXMTP), BEE STMP 和 ESMTP 都 合并 到 当前 的 RFC 5321 中 ， 于 2008 4 
]， 只 要 能 登录 服务 器 、 


























但 邮件 需要 立即 发 送 ( 即 不 会 入 队 )。LMTP 服务 器 不 暴露 到 外 面 ] 
网 关 工 作 ， 以 表示 接收 还 是 # 





Eo MAXEN LMTP 的 


一 些 实现 SMTP 的 著名 MTA 包括 以 下 几 个 。 


开源 MTA 
e 
e Postfix 
e Exim 
e qmail 
商业 MTA 


Sendmail 


Microsoft Exchange 


Lotus Notes Domino Mail Server 


直接 与 连接 到 因 


件 传输 协议 )， 其 基于 
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都 在 服务 器 中 加 入 了 | 
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注意 , 虽然 这 些 都 实现 了 最 小 的 SMTP 协议 需求 , 但 其 
协议 定义 之 外 的 特有 功能 。 
SMTP 是 在 因特网 上 的 MTA 之 间 消 息 交 换 的 最 常用 MTSMTA。 用 SMTP 把 电子 邮件 从 
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大 多 数 , 尤其 是 一 些 商 业 MTA， 























一 台 (MTA) 主机 传送 到 另 一 台 (MTA) 雳 发 电子 邮件 时 ， 必 须要 连接 到 一 个 外 部 SMTP 











服务 器 ， 此 时 邮 从 








3.4.3 Python 和 9SMTP 


个 端口 ， 











1. 连接 到 服务 器 。 





2. 登录 (根据 需要 )。 
3. 发 出 服务 请 求 。 
4. 退出 。 

像 NNTP 一 样 ， 登 录 是 可 选 的 ， 只 有 在 服务 器 启用 了 SMTP 身份 验证 SMTP-AUTH) 
时 才 要 登录 。SMTP-AUTH 在 RFC 2554 中 定义 。 还 是 与 NNTP 一 样 ，SMTP 通信 时 只 要 一 


























这 里 是 端口 号 25。 








下 面 是 一 些 Python 伪 代 码 。 


from smtplib import SMTP 


n = SMIP('smtp.yourdomain.com') 


n.quit () 




















在 看 真实 的 例子 之 前 ， 先 介绍 一 下 smtplib.SMTP 类 的 一 些 常用 方法 。 











3.4.4 smtplib.SMTP 类 方法 


除了 smtplib.SMTP 类 之 外 ，Python 2.6 还 引入 了 另外 两 个 类 ， 即 SMTP_SSL 和 LMTP. ES 
后 者 实现 了 LMTP〔 如 3.4.2 节 所 述 )。 前 者 的 作用 类 似 SMTP, 43.4.2 节 所 述 ， 但 通过 加 密 

的 套 接 字 通信 ， 可 以 作为 SMTP/TLS 的 替代 品 。STMP_SSL 默认 端口 是 465。 

与 之 前 一 样 , 这 里 只 列 出 创建 SMTP 
发 送 程 序 来 说 ， 只 需要 两 个 方法 : sendmail0 和 quit()。 








sendmail() 的 所 有 参数 都 要 遵循 RFC 2822， 即 电子 邮件 地 址 必须 要 有 正确 的 格式 ， 消 息 
正文 要 有 正确 的 前 导 标 题 ， 正 文 必 须 由 回 




































































注意 ， 实 际 的 消息 正文 不 是 必需 的 。 














F 程 序 是 一 个 SMTP 客户 端 。 而 SMTP 服务 器 也 因此 成 为 消息 的 第 一 站 。 




















是 的 ， 也 有 一 个 smtplib 模块 和 一 个 需要 实例 化 的 smtplib.SMTP 类 。 先 回顾 这 个 已 经 熟 
悉 的 过 程 。 













































































客户 端 应 用 程序 所 需要 的 方法 。 对 大 多 数 电子 邮件 
































车 和 换行 符 Ann) 对 分 隔 。 
根据 RFC 2822,“ 唯 一 需要 的 消息 标题 只 有 发 送 





























期 字段 和 发 送 地 址 字段 ” BH “Date:” f “From:” (MAIL FROM. RCPT TO. DATA). 
表 3-3 列 出 了 一 些 常 见 的 SMTP 对 象 方法 。 还 有 一 些 方法 没有 提 到 ， 不 过 一 般 来 说 ， 其 他 方 


TZ 








RI 








EXT 














BE 子 邮件 时 用 不 到 。 关 于 SMTP 对 象 的 所 有 方法 的 更 多 信息 ， 可 以 参见 Python 文档 。 






































5 ”法 
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表 3-3 SMTP 对 象 常见 的 方法 


描 x 





sendmail(from, to, msg[, mopts, ropts]) 


将 msg 从 from 发 送 至 to〔 以 列表 或 元 组 表示 )， 还 可 以 选择 性 地 设置 ESMTP 邮件 


(mopts) 和 收 件 人 (ropts) 选项 





























































































































ehlo0 或 helo0 使 用 EHLO 或 HELO 初始 化 SMTP 或 ESMTP 服务 器 的 会 话 。 这 是 可 选 的 ， 因 为 
sendmailO 会 在 需要 时 自动 调用 相关 内 容 

starttls(keyfile=None, certfile=None) 让 服务 器 启用 TLS 模式 。 如 果 给 定 了 keyfile 或 certfile， 则 它们 用 来 创建 安全 套 接 3 

set. debuglevel(level) 为 服务 器 通信 设置 调试 级 别 

quit() 关闭 连接 并 退出 








login(user, pass wd)? 


© 只 用 于 SMTP-AUTH. 























x 





























使 户 名 和 密码 登录 SMTP 服务 器 








3.4.5 XER SMTP 示例 


同样 ， 这 里 介绍 一 个 交互 式 示例 。 





>>> from smtplib import SMTP as smtp 


>>> s = smtp('smtp.python.is.cool') 


>>> s.set_debuglevel (1) 


>>> s.sendmail('wesley@python.is.cool', 
'chun(python.is.cool!), 











('wesley@python.is.cool', 
''' From: wesley@python.is.cool\r\nTo: 


wesley@python.is.cool, chun@python.is.cool\r\nSubject: test 
msg\r\n\r\nxxx\r\n.''') 

send: 'ehlo myMac.local\r\n' 

reply: '250-python.is.cool\r\n' 

reply: '250-7BIT\r\n' 

reply: '250-8BITMIME\r\n' 

reply: '250-AUTH CRAM-MD5 LOGIN PLAIN\r\n' 
reply: '250-DSN\r\n' 

reply: '250-EXPN\r\n' 

reply: '250-HELP\r\n' 

reply: '250-NOOP\r\n' 

reply: '250-PIPELINING\r\n' 

reply: '250-SIZE 15728640\r\n' 

reply: '250-STARTTLS\r\n' 

reply: '250-VERS V05.00c44NrMn' 

reply: '250 XMVP 2\r\n' 

reply: retcode (250); Msg: python.is.cool 
7BIT 

8BITMIME 





AUTH CRAM-MD5 LOGIN PLAIN 


DSN 
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EXPN 
HELP 
NOOP 





PIPELINING 
SIZE 15728640 


STARTTLS 





VERS V05.00c++ 





XMVP 2 


send: 'mail F 


reply: '250 ok\r\n' 


reply: re 


send: 'rcpt TO:<wesley@python 


tcode (250); 


reply: '250 ok\r\n' 


reply: re 
send: 'da 


tcode (250); 
ta\r\n' 





reply: '354 ok\r\n' 


reply: re 


tcode (354); 


data: (354, 'ok') 
send: 'From: wesley@python.is.cool\r\nTo: 


wesley@py 


Msg: ok 


Msg: ok 





Msg: ok 


ROM:<wesley@python.is.cool> size=108\r\n' 


-is.cool>\r\n' 


thon.is.cool\r\nSubject: test msg\r\n\r\nxxx\r\n..\r\n.\r\n' 


reply: '250 ok ; id=20051226235837013000r7hhe\r\n' 
Msg: ok ; id=20051226235837013000r7hhe 





reply: re 


data: (250, 


{} 


>>> s.qui 


tcode (250); 


t () 


send: 'quit\r\n' 


reply: '221 python.is.cool\r\n' 


reply: re 





"ok ; id-20051226235837013000r7hhe') 


tcode (221); Msg: python.is.cool 


3.4.6 SMTP 的 其 他 内 容 


关于 SMTP 的 更 多 信息 可 以 阅读 SMTP 协议 定义 /规范 ， 即 RFC 5321， 参 见 http://tools. 


ietf.org/html/rfc2821. XF Python 对 SMTP 的 


/Smtplib 。 


关于 电子 邮件 ， 还 有 一 个 很 
BE 子 邮件 消息 。 这 些 信息 详细 记录 在 















































EE 

















要 的 方面 没有 讨论 ， 即 如 何 正确 设 定 




















http://tools.ietf.org/html/rfc5322 来 了 解 。 


3.4.7 ”接收 电子 邮件 























式 机 还 都 是 装 有 类 UNIX 操作 系统 的 工作 站 。 
到 电子 邮件 。 在 20 世纪 90 年 代 中 期 因 























最 新 的 因特网 消息 





























在 以 前 ， 只 有 大 学 生 、 研 究 人 员 和 工商 企业 的 雇员 会 在 因特网 上 用 电子 邮件 通 

















特 网 大 ; 


紧 炸 的 时 候 ， 电 子 邮 件 才 玫 




















Hi. AB 


多 文 持 , 可 以 阅读 http://docs.python.org/library 


因特网 地 址 的 格式 和 
式 规范 (RFC 5322) 中 。 可 以 访问 





te 

















而 家 庭 用 户主 要 是 在 PC 上 拨号 上 网 ， 并 没有 用 














F 始 进入 王家 万 户 。 














对 于 家 族 用 户 来 说 ， 在 家 里 放 一 个 工作 多 


种 新 的 系统 ， 能 够 周期 性 地 把 
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上 来 运行 SMTP 是 不 现实 的 ， 














邮件 下 载 到 本 二 











一 套 新 的 协议 和 新 的 应 











程序 来 与 邮件 服务 器 通 

















这 种 在 家 用 电脑 中 运行 的 应 
有 务 器 上 下 载 邮件 ， 
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在 这 个 过 程 中 可 
| 除 )。 不 过 MUA 也 必须 

















JFE) 























也 计算 机 ， 以 供 离线 时 使 用 。 











' Ui 
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ab 
要 能 


自动 天 
发 送 邮 


REN] (也 可 能 不 删除 ， 
牛 。 也 就 是 说 ， 在 发 送 邮 件 
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LFZ 
要 能 直接 使 
RAT. J 
3.4.8 POP 和 1IMAP 


第 一 个 
























































H, F 1984 年 10 月 公布 ， 
里 的 由 

















Message Access Protocol, IMAP). 


互 式 邮件 访问 协议 和 “临时 邮 
公布 其 RFC (于 1988 4E 7 A 
2 版 (POP2) 的 启发 。 








] SMTP 与 MTA 进行 
pg 下载 邮 件 的 客户 端 呢 ? 


66 邮 
$5 件 ， 并 在 工作 站 中 。 通 过 简单 邮件 传输 协议 (SMTP 
协议 的 最 新 版 本 是 第 3 版 ， 也 称 为 POP3。POP3 在 RFC 1939 : 


在 POP 出 现 几 年 之 后 有 了 一 个 与 之 竞争 的 协议 ， 即 因特网 消息 访问 协议 (Internet 





























通信 。 


在 前 面 




















MR 


介绍 SMTP 的 小 节 : 


Ji 




















局 协议 (POP 








件 访问 协议 ”。 


发 布 的 RFC 1064)。 











IMAP E 





在 提供 比 POP 更 完 








Hr 











ELTE 








常 适 合 今天 的 需要 ， 因 


平板 电脑 、 手 机 、 
































广泛 ,但 大 部 分 情况 下 已 经 被 废弃 了 。 注意,， 廊 
今后 IMAP 能 得 
的 版 本 是 IMAP4rev1。 实 际 上 ，Microsoft Exchange 这 个 : 
在 编写 本 1 


送 ) 邮件 。 


当前 广 


希望 
泛 使 用 






































服务 器 使 用 IMAP 作为 下 载 方 式 。 
月 )。 本 书 中 的 IMAP4 同时 表示 IMAP4 和 IMAP4rev1 协议 。 
建议 查阅 前 面 提 到 的 RFC 文档 。 图 
# Python 中 对 POP3 和 IMAP4 的 支持 。 








(公布 于 2003 Œ 3 
要 了 解 更 多 内 容 ， 
现在 进一步 了 角 


3.4.9 Python 和 POP 
52. 


前 一 村 
1. 连接 到 
2. 登录 。 
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=> rH 2B 
rir ez A 


整 的 解决 方案 ， 
过 不 同 的 设备 使 用 电子 邮件 ， 如 





视频 游戏 系统 等 。POP 无 法 很 好 地 应 对 多 邮件 客户 

















) 的 目的 是 让 
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第 1 版 的 IMAP 是 实验 性 


因此 
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己 经 看 过 


必须 要 设计 一 


的 系统 就 要 有 








FE HU SE RJ Pr 代理 (Mail User Agent, MUA). MUA 从 
留 在 服务 器 上 ， 
的 时 候 ， 应 


il 
程序 
这 种 发 送 邮 件 


























] 于 下 载 邮件 的 协议 称 为 邮局 协议 (Post Office Protocal，POP)， 记 录 在 RFC 918 
j 户 的 工作 站 可 以 访 
邮件 发 送 到 邮件 服务 器 ”。POP 
定义 ， 至 今 仍 在 广泛 应 用 。 


问 邮 箱 服务 器 





IMAP 还 有 其 他 名 称 ， 如 “因特网 邮件 访问 协议 ”“ 交 
质 的 ， 








直到 第 2 版 才 
































RFC 1064 中 指出 ， 











但 它 也 因此 比 POP 更 


PEN 
ri 


TIR, 




















这 里 导入 poplib J| 


到 更 多 应 用 。 
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al A 
端 ， 尽 管 


IMAP2 受到 了 POP 第 


例如 ，IMAP 3E 


式 机 、 笔 记 本 电脑 、 

















POP 应 用 依然 




















Fe ISP M BU 只 提供 











实例 化 poplib.POP3 


POP 来 接收 











| SMTP 发 


4 今 最 主要 的 邮件 


BH. 最 新 的 IMAP4rev1 协议 草案 是 RFC 3501 














类 。 标 准 


3-3 显示 了 电子 邮件 这 个 复杂 的 系统 。 


流程 如 下 所 示 。 
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3. 发 出 服务 请 求 。 


















4. 退出 。 
因特网 
POP3/IMAP4 
(接收 ) 
邮件 垃圾 邮件 和 
客户 庙 病毒 n 邮件 
过 滤 设 备 v: BNET. 
收 件 人 
发 件 人 Au 
(或 收 件 入 ) (或 发 件 人 ) 


SMTP (发 送 ) 





























































































图 3-3 ”因特网 上 的 电子 邮件 发 件 人 和 收 件 人 。 客 户 端 通过 他 们 的 MUA 和 相应 的 MTA 来 进行 通信 ， 
下 载 和 发 送 邮 件 。 电 子 邮件 从 一 个 MTA“ 跳 ”到 另 一 个 MTA， 直 到 到 达 目 的 地 为 止 
Python 伪 代 码 如 下 。 


from poplib import POP3 

p = POP3('pop.python.is.cool') 
p.user(...) 

p-pass_(...) 


p.quit () 
在 看 真实 的 示例 之 前 ， 必 须要 介绍 一 下 poplib.POP3 SSL 类 (Python 2.4 中 添加 的 )， 该 ES 
类 需要 提供 一 些 凭 证 信息 ， 然 后 通过 加 密 连 接 传输 邮件 。 同 样 ， 先 来 看 一 个 交互 式 示例 ， 介 
绍 poplib.POP3 类 中 的 一 些 基 本 方法 。 
3.4.10 ZER POP3 示例 


下 面 是 使 用 Python 的 poplib 模块 的 交互 式 示 例 。 其 中 第 一 次 的 时 候 故 意 输 错 密码 , 来 显 
示 在 实际 中 服务 器 的 报错 消息 。 下 面 是 完整 的 交互 式 输 出 内 容 。 





















































>>> from poplib import POP3 

>>> p = POP3('pop.python.is.cool') 
>>> p.user('wesley') 

"40K! 


>>> p.pass ("you'llNeverGuess") 


Traceback (most recent call last): 


File "<stdin>", line 1, in ? 


in pass. 


return self. shortcmd('PASS $s' 


in | shortcmd 


return self. getresp() 























pi 


in _getresp 


raise error_proto (resp) 


File "/usr/local/lib/python2.4/popl 


ile "/usr/local/lib/python2.4/popl 





le "/usr/local/lib/python2.4/popl 
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lib.py", line 202, 


lib.py", line 165, 





lib.py", line 141, 


poplib.error proto: -ERR directory status: BAD PASSWORD 


>>> p.user('wesley') 

"FOK! 

>>> p.pass ('youllNeverGuess') 
'*OK ready' 

>>> p.stat() 

(102, 2023455) 

>>> rsp, msg, siz = p.retr(102) 
>>> rsp, siz 

('+OK', 480) 

>>> for eachLine in msg: 


. print eachLine 


Date: Mon, 26 Dec 2005 23:58:38 +0000 


(GMT) 


Received: from c-42-32-25-43.smtp.python.is.cool 
by python.is.cool (scmrch31) with ESMTP 
id «20051226235837013000r7hhe»; Mon, 26 Dec 2005 23:58:37 


+0000 
From: wesley@python.is.cool 
To: wesley@python.is.cool 


Subject: test msg 
XXX 


>>> p.quit () 
'+OK python.is.cool' 


3.4.11 poplib.POP3 类 方法 























POP3 类 提供 了 许多 方法 用 来 下 载 和 离线 管理 





EE 邮箱。 最 常用 的 方法 列 在 表 3-4 中 。 














在 登录 时 ，user0 方 法 不 仅 向 服务 器 发 送 












































] 户 名 ， 还 会 等 待 并 显示 服务 器 的 响应 ， 表示 服 








务 器 正在 等 待 输入 该 用 户 的 密码 。 如 果 pass_() 方 法 验证 失败 ， 会 引发 一 个 poplib.error_proto 























器 上 的 这 个 邮箱 ， 直 到 调用 quitO 方 法 为 止 。 








常 。 如 果 成 功 ， 会 得 到 一 个 以 “+” 号 开头 的 应 答 消 息 ， 如 “+OK ready”， 然 后 锁定 服务 
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分 别 是 每 个 消 ， 

















用 应 用 





题 














调用 list0 方 法 时 ，msg_list 的 格式 为 : 
号 和 消息 的 大 小 。 


还 有 一 些 方法 这 里 没有 列 出 。 更 多 内 容 请 参 














NT 



































[‘msgnum msgsiz’,...] 


> FL, msgnum 和 msgsiz 

















参考 Python È 





EF 手册 里 poplib 的 文档 。 








表 3-4 POP3 对 象 的 常用 方法 

























































































































































































方 ”法 HE x 

user(login) 向 服务 器 发 送 登录 名 ， 并 显示 服务 器 的 响应 ， 表 示 服 务 器 正在 等 待 输入 该 用 户 的 密码 

pass (passwd) 在 用 户 使 用 user0 登 录 后 ， 发 送 passwd。 如 果 登 录 失 败 ， 则 抛 出 异常 

stat() 返回 邮件 的 状态 ， 即 一 个 长 度 为 2 的 元 组 (msg ct, mbox_siz)， 分 别 表 示 消 息 的 数量 和 消息 的 总 大 小 〈 即 
字 节 数 ) 

list([msgnum]) stat() 的 扩展 ， 从 服务 器 返回 以 三 元 组 表示 的 整个 消息 列表 (rsp, msg list, rsp_siz)， 分 别 为 服务 器 的 响应 、 
消息 列表 、 x 可 消息 的 大 小 。 如 果 给 定 了 msgnum， 则 只 返回 指定 消息 的 数据 

retr(msgnum) 从 服务 器 中 得 到 消息 的 msgnum， 并 设置 其 “已 读 ” 标 志 。 返回 一 个 长 度 为 3 的 元 组 Gsp, msglines, msgsiz)， 
分 别 为 服务 器 的 响应 、 消 息 的 msgnum 的 所 有 行 、 消息 的 字 节 数 

dele(msgnum) 把 消息 msgnum 标记 为 删除 ， 大 多 数 服务 器 在 调用 quitO 后 执行 删除 操作 

quit() 注销 、 提 交 修 改 〈 如 处 理 “ 已 读 ” 和 “删除 ”标记 等 )、 解 锁 邮 箱 、 终 止 连接 ， 然 后 退出 





3.4.12 ”客户 端 程序 


示例 3-3 演示 了 如 何 使 朋 
发 送 电子 邮件 的 客户 端 。 
一 段 时 间 《 随 便 选 了 一 个 时 间 ， 义 
IIA AG AGE A 


























SMTP 和 POP3 示例 





























明 操 作 都 成 功 了 。 
































H SMTP 和 POP3 创 
SMTP 给 自己 
10 秒 钟 )， 然 后 使 
的 内 容 应 该 完全 一 样 。 





如 果 程 序 无 提示 地 结束 ， 

















建 一 个 既 能 接收 和 下 载 电 子 邮件 也 能 上 传 和 
(或 其 他 测试 账户 ) 发 一 封 电子 邮件 ， 等 待 
] POP3 下 载 这 封 电子 邮件 。 下 载 下 来 
没有 输出 也 没有 异常 ， 那 就 说 










































































示例 3-3 SMTP 和 POP3 示例 (myMail.py) 


这 个 及 











本 (通过 SMTP 




















HRE 


WO O06 - O0 Ut. d wn 





来 。 读 者 自 














邮件 服务 器 ) 发 送 一 封 测试 











电子 邮件 到 














的 地 址 ， 并 马上 (通过 PoP) 把 











电子 邮件 从 服务 器 




















己 测试 时 ， 为 了 让 程序 能 正常 工作 ， 需 要 修改 服务 器 名 称 和 电子 








#!/usr/bin/env python 


from smtpl 


from popli 


from time 


SMTPSVR 
POP3SVR 


ib import SMTP 
b import POP3 
import sleep 


'smtp.python.is.cool' 
'pop.python.is.cool' 


'wesleyGpython.is.cool' 


body = UUIN. 
From: %(who)s 


To: 96(who) 


S 


Subject: test msg 








b 件 地 址 。 


Hello World! 
'"À! 96 {'who': who} 


sendSvr = SMTP(SMTPSVR) 

errs = sendSvr.sendmail(who, [who], origMsg) 
sendSvr.quit() 

assert len(errs) == 0, errs 

sleep(10) # wait for mail to be delivered 


recvSvr = POP3(POP3SVR) 

recvSvr.user('wesley') 

recvSvr.pass ('youllNeverGuess') 

rsp, msg, siz = recvSvr.retr(recvSvr.stat() [0]) 
# strip headers and compare to orig msg 

sep = msg.index('') 

recvBody = msg[sep+1:] 

assert origBody == recvBody # assert identical 


逐 行 解释 


第 1 一 8 行 
与 本 章 前 面 的 例子 一 样 ， 程 序 一 开始 是 一 些 import 语句 和 常量 定义 。 常 量 分 别 是 发 送 邮 
fF CSMTPO 和 接收 邮件 CPOP3O 的 服务 器 。 
$ 10~17 47 


这 几 行 是 消息 内 容 的 准备 工作 。 对 于 这 条 用 于 测试 的 消息 ， 寄 件 人 和 收 件 人 是 同一 个 用 








第 3 章 因特网 客户 端 编程 99 







































































Po PERS, RFC 2822 要 求 消息 头 和 正文 需要 用 空 行 隔 开 。 
f£ 19—23 行 
这 一 段 代 码 连 接 到 发 送 (SMTP) 服务 器 来 发 送 消 息 。 这 里 再 次 用 到 了 From 和 To 的 地 址 ， 这 


些 地 址 要 么 是 
和 收 件 人 。 收 位 
只 有 一 个 元 素 的 列表 。 对 于 垃圾 邮件 ， 消 息 头 中 的 地 址 和 投递 头 中 的 地 址 是 不 一 致 的 。 

















销 ， 


代码 中 先 根 据 
列表 。 通 过 [0] 




































































“真实 ”的 收 件 人 和 寄 件 人 的 电子 邮件 地 址 , 要 么 是 投递 寄 件 人 "(envelope sender) 





F 人 参数 应 该 是 一 个 可 迁 代 的 对 象 。 如 果 传 递 的 是 一 个 字符 串 ， 则 它 会 转换 成 一 个 









































sendmail() 的 第 三 个 参数 是 电子 邮件 消息 本 身 。 在 这 个 函数 返回 后 ,就 从 SMTP 服务 器 注 
并 判断 是 否 有 错误 发 生 过 。 接 着 等 待 一 段 时 间 ， 让 服务 器 完成 消息 的 发 送 与 接收 。 


第 25—32 íf 


























最 后 




















部 分 用 来 下 载 刚 刚 发 送 的 消息 ， 并 上 断言 刚刚 发 送 的 和 现在 接收 的 消息 完全 相同 。 







































































SS 




















? 投递 寄 人 


ai 


4 











FA 



































































































































J retrO 下 载 这 条 消息 


] 户 名 和 密码 连接 到 POP3 服务 器 。 登 录 成 功 后 ， 调 用 stat0 方 法 得 到 可 用 消息 
符号 选中 第 一 条 消息 ， 然 后 调 





o 





人 类 似 在 信封 外 壳 上 写 的 寄 件 人 和 收 件 人 地 址 ， 邮 局 根据 这 个 地 址 进行 投递 。 而 “真实 ”的 收 件 人 和 
FE 人 是 指 在 信封 里 面 的 信件 上 写 出 来 的 这 封 信和 是 由 谁 寄 出 的 ， 只 有 收 件 人 会 看 到 。SMITP 一 般 只 根据 投递 寄 
FF 人 发 送 邮件 ， 而 不 查看 “真实 ”的 收 件 人 和 寄 件 人 。 参 考 资料 : [1] https:/Autcc.utoronto.ca/usg/technotes/ 





smtp-intro.html; [2] http://stackoverflow.com/questions/1750194/why-does-email-need-an-envelope-and-what-does- 


the-envelope-mean; [3] https://www.pobox.com+/helpspot/index.php?pg =kb.page&id=260。 一 一 译 者 注 








Mr 








100 第 1 部 分 通用 应 用 主题 









































遇 到 空 行 则 表示 在 此 之 前 是 邮件 头 部 ， 之 后 是 邮件 正文 。 去 掉 消 息 头 部 分 ， 比 较 原 始 
消息 正文 和 收 到 的 消息 正文 。 如 果 相 同 就 不 显示 任何 内 容 ， 程 序 正常 退出 ， 否 则 会 出 现 断 
言 失败 。 
由 于 错误 的 类 型 有 很 多 种 ， 这 个 脚本 里 没有 进行 错误 检查 ， 因 此 代码 比较 简洁 (在 本 章 
末尾 有 一 个 练习 就 需要 添加 错误 检查 )。 

现在 读者 对 今日 电子 邮件 的 收发 有 了 很 全 面 的 了 解 。 如 果 想 深入 了 解 这 一 方面 的 开发 内 
A, 请 参阅 下 一 节 中 介绍 的 与 电子 邮件 相关 的 Python 模块 ， 那些 模块 在 电子 邮件 相关 的 程序 
开发 方面 有 相当 大 的 帮助 。 


3.4.13 Python 和 IMAP4 


Python 通过 imaplib 模块 支持 IMAP4。 这 与 本 章 介绍 的 其 他 因特网 协议 非常 相似 。 首 先 
导入 imaplib， 实 例 化 其 中 一 个 imaplib.IMAP4* 类 ， 标 准 流程 与 之 前 一 样 。 

1. 连接 到 服务 器 。 

2. 登录 。 

3. 发 出 服务 请 求 。 

4. 退出 。 

下 面 是 对 应 的 Python 伪 代 码 。 


from imaplib import IMAP4 




































































































































































































































































s- IMAP4('imap.python.is.cool') 
s.login(...) 

s.close() 

s.logout () 








这 个 模块 定义 了 三 个 类 ， 分 别 是 IMAP4,. IMAP4 SSL, IMAPA stream， 这 些 类 可 以 用 
来 连接 任何 兼容 IMAP4 的 服务 器 。 就 如 同 POP3_SSL 对 于 POP，IMAP_SSL 可 以 通过 SSL 
加 密 的 套 接 字 连接 IMAP4 服务 器 。IMAP 的 另 一 个 子 类 是 IMAP4_stream， 该 类 可 以 通过 一 
个 类 似 文件 的 对 象 接口 与 IMAP4 服务 器 交互 。 后 两 个 类 在 Python 2.3 中 添加 。 

现在 来 看 看 一 个 交互 式 例子 ， 这 个 例子 介绍 了 imaplib.IMAP4 类 中 的 基本 方法 。 


3.4.14 交互 式 IMAP4 示例 


下 面 是 一 个 使 用 Python 的 imaplib 的 交互 式 示 例 。 





























































































































>>> s = IMAP4('imap.python.is.cool') # default port: 143 
>>> s.login('wesley', 'youllneverguess') 

('OK', ['LOGIN completed']) 

>>> rsp, msgs = s.select('INBOX', True) 

>>> rsp 


3.4.15 
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'OK' 
>>> msgs 

['98'] 

>>> rsp, data = s.fetch(msgs[0], '(RFC822)') 
>>> rsp 

' OK" 

>>> for line in data[0][1].splitlines()[:5]: 


print line 


Received: from mail.google.com 

by mx.python.is.cool (Internet Inbound) with ESMTP id 
316ED380000ED 

for <wesley@python.is.cool>; Fri, 11 Mar 2011 10:49:06 -0500 (EST) 
Received: by gybll with SMTP id 11s0125539gyb.10 

for <wesley@python.is.cool>; Fri, 11 Mar 2011 07:49:03 -0800 

(PST) 
>>> s.close() 
('OK', ['CLOSE completed']) 
>>> s.logout () 
('BYE', ['IMAP4revl Server logging out']) 


imaplib.IMAP 4 类 中 的 常用 方法 























前 面 提 到 过 ，IMAP 协议 比 POP 复杂 ， 因 此 有 很 多 方法 这 里 没有 列 出 。 表 3-5 列 出 了 一 



























































些 基 本 方法 ， 读 者 可 能 会 在 简单 的 电子 邮件 应 用 中 用 到 这 些 方法 。 














表 3-5 IMAP4 对 象 的 常见 方法 
方 法 描 x 

















































































































MSS 关闭 当前 邮箱 。 如 果 访 问 权限 不 是 只 读 ， 则 本 地 删除 的 邮件 在 服务 器 端 也 会 被 丢弃 
esa ie Ad or 获取 之 前 由 message. ser 设置 的 电子 邮件 消息 状态 (或 使 用 message parts 获取 部 分 状态 信息 ) 
login(user, password) 使 用 指定 的 用 户 名 和 密码 登录 

logout 从 服务 器 注销 

noop0 ping 服务 器 ， 但 不 产生 任何 行为 

search(charset, *criteria) 查询 邮箱 中 至 少 匹 配 一 块 riteria 的 消息 ,如果 charset 3 False, 则 默认 使 用 US_ASCGII 



































select(mailbox='INBOX' read-only-False) | 选择 一 个 文件 夹 〈 默 认 是 INBOX)， 如 果 是 只 读 ， 则 不 允许 用 户 修 改 其 中 的 内 容 

















下 面 是 一 些 使 用 这 些 方法 的 示例 。 














NOP, NOOP 或 “no operation ”这 些 内 容 表 示 与 服务 器 保持 连接 状态 。 


>>> s.noop() 
('OK', ['NOOP completed']) 
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。 获取 某 条 消息 的 相关 信息 。 


>>> rsp, data = s.fetch('98', '(BODY)') 

>>> data[0] 

'98 (BODY ("TEXT" "PLAIN" ("CHARSET" "ISO-8859-1" "FORMAT" "flowed" 
"DELSP" "yes") NIL NIL "7BIT" 1267 33))' 


。 获取 某 条 消息 的 头 。 


>>> rsp, data = s.fetch('98', '(BODY[HEADER]) ') 
>>> data[0][1][:45] 


"Received: from mail-gy.google.com (mail-gy.go') 
。 获取 所 有 已 读 消 息 的 ID 〈 也 可 以 尝试 使 用 “ALL”“NEW” 等 )。 


>>> s.search(None, 'SEEN') 
('"OR', EL 2.3.4 5 6 7? 8 9 10 1L 12 13 14 15 16 17 18 19 20 21-27 23 
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 59 60 61 62 
63 64 97']) 


。 RMSAIE EHR SOME. SEE AS HE NA. 


>>> rsp, data = s.fetch('98:100', '(BODY[TEXT]) ') 
»»» data[0][1][:45] 







































































'Welcome to Google Accounts. To activate your' 

>>> data[2][1][:45] 
"\r\n-bl_aeblac91493d87ea4f2aa7209£56£909\r\nCont' 
>>> data[4][1][:45] 





'This is a multi-part message in MIME format.' 
>>> data[1], data[3], data[5] 
(0 tete A) 


3.5 ”实战 


3.5.0. 生成 电子 邮件 


到 目前 为 止 ,本 章 已 经 深入 介绍 了 多 种 使 用 Python 下 载 电子 邮件 消息 的 方法 ， 甚 至 还 讨 
论 过 如 何 创建 简单 的 文本 电子 邮件 消息 ， 以 及 连接 到 SMTP 服务 器 来 发 送 邮 件 。 但 这 其 中 没 
有 介绍 如 何在 Python 中 生成 稍微 复杂 的 消息 。 读 者 可 能 已 经 猜 到 ， 这 里 所 说 的 稍微 复杂 的 电 
子 邮 件 消息 是 指 不 仅 包 含 纯 文本 ， 还 有 附件 、 文 本 中 的 格式 等 。 本 节 就 介绍 相关 内 容 。 

这 种 较 长 的 消息 由 多 个 部 分 组 成 。 比 如 消息 中 有 纯 本 文 的 部 分 ， 可 能 还 有 对 应 的 HTML 
部 分 ， 这 部 分 针对 使 用 Web 浏览 器 作为 邮件 客户 端的 情形 ， 除 此 之 外 还 有 一 个 或 多 个 附件 。 
邮件 互 换 消 息 扩 展 (Mail Interchange Message Extension, MIME) 格式 就 用 来 识别 这 些 不 同 
的 部 分 。 












































































































































































































































Python 的 email GREA AE 
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并 管理 整个 电子 邮件 消息 的 MIME 部 分 ， 这 一 节 将 使 用 
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email 包 和 smtplib 包 。email 包 有 多 个 组 件 , 分 别 用 来 解析 和 生成 电子 邮件 。 本 节 首 先 介 绍 生 
成 电子 邮件 ， 之 后 再 简要 介绍 消息 解析 。 
示例 3-4 中 有 两 个 创建 电子 邮件 消息 的 示例 ， 即 make mpa msgO fll make_img_msg(), 

















两 者 都 创建 了 一 条 带 有 附件 的 电子 邮件 消息 。 前 者 创建 并 发 送 了 一 条 多 部 分 消息 ， 后 者 创建 











并 发 送 了 一 条 
































示例 3-4 ”生成 电子 邮件 (email-examples.py) 
这 个 Python 2 脚本 创建 并 发 送 了 两 种 不 同类 型 的 电子 邮件 消息 。 


Ceanauwnkwn— 


#!/u 


'email-examples.py - demo creation of email messages' 


from 
from 
from 
from 


# mu 
def 


# mu 
def 


def 


if 























sr/bin/env python 


email.mime.image import MIMEImage 
email.mime.multipart import MIMEMultipart 
email.mime.text import MIMEText 

smtplib import SMTP 


ltipart alternative: text and html 
make mpa msgQO: 
email = MIMEMultipart('alternative') 
text = MIMEText('Hello World!\r\n', 'plain') 
email.attach(text) 
html = MIMEText( 
'«htm1»«body»«h4»Hello World!«/h4»' 
'«/body»«/html»', 'html') 
email.attach(html) 
return email 


ltipart: images 

make img msg(fn): 

f = open(fn, 'r') 

data = f.read() 

f.close() 

email = MIMEImage(data, name-fn) 

email.add header('Content-Disposition', 
‘attachment; filename="%s"' % fn) 

return email 


sendMsg(fr, to, msg): 

s = SMTP('localhost') 

errs = s.sendmail(fr, to, msg) 
s.quit(O 


name -- ' main 





print 'Sending multipart alternative msg..." 
msg = make mpa msg() 

msg['From'] = SENDER 

msg['To'] = ', '.joinCRECIPS) 

msg['Subject'] = 'multipart alternative test' 
sendMsg(SENDER, RECIPS, msg.as_string()) 


print ‘Sending image msg...' 
msg = make img msg(SOME IMG FILE) 


BE 子 邮件 消息 ， 其 中 含有 一 幅 图 片 。 示 例 代 码 后 面 是 逐 行 解释 。 












































104 第 1 部 分 通用 应 用 主题 














45 msg['From'] = SENDER 

46 msg['To'] = ', '.join(RECIPS) 

47 msg['Subject'] = 'image file test' 

48 sendMsg(SENDER, RECIPS, msg.as stringO) 
逐 行 解释 
第 1~7 AT 


除了 标准 的 起 始 行 和 docstring， 还 导入 了 MIMEImage. MIMEMultipart, MIMEText, 
SMTP 类 。 

第 9 一 18 行 

多 部 分 选择 消息 通常 包含 两 部 分 ,一 是 以 纯 文本 表示 的 邮件 消息 正文 , 以 及 等 价 的 HIML 
格式 。 由 邮件 客户 端 来 决定 显示 哪 一 部 分 。 例 如 ， 基 于 Web 的 电子 邮件 系统 会 显示 HTML 
版 本 ， 而 基于 命令 行 的 邮件 阅读 器 只 会 显示 纯 文 本 版 本 。 

为 了 创建 这 种 类 型 的 消息 ， 需 要 使 用 emailLmime.multiple.MIMEMultipart 类 ， 并 传递 
alternative 作为 唯一 的 参数 来 实例 化 这 个 类 。 如 果 不 传递 这 个 参数 , 则 前 面 的 纯 文本 和 HTML 
会 分 别 作 为 消息 中 的 附件 ， 这 种 情况 下 ， 有 些 邮件 系统 会 同时 显示 这 两 部 分 的 内 容 。 

这 两 部 分 都 会 用 到 email.mime.text.MIMEText 类 ， 因 为 这 两 部 分 内 容 都 是 纯 文 本 。 每 个 
部 分 都 要 附加 到 邮件 中 ， 因 为 这 两 部 分 是 在 邮件 创建 之 后 才 创 建 的 。 

第 20~28 fT 

make_img_msg() 函 数 使 用 一 个 文件 名 作为 参数 。 使 用 文件 中 的 数据 生成 一 个 新 的 
email.mime.image.MIMEImage 实例 。 添加 一 个 Content-Disposition A, 接着 将 消息 返回 给 用 户 。 

第 30—33 行 

sendMsg0 的 唯一 目的 是 获取 基本 的 电子 邮件 发 送信 息 〈 发 件 人 、 收 件 人 、 消 息 正 文 )， 
接着 传送 消息 ， 然 后 返回 给 调用 者 。 

要 查看 更 详尽 的 输出 内 容 , 可 以 试 试 这 个 扩展 :s.set debuglevel(CTrue), 其 中 s 是 smtplib.SMTP 
服务 器 。 最 终 ， 与 前 面 一 样 ， 因 为 许多 SMTP 服务 器 需要 登录 ， 所 以 需要 在 这 里 登录 (在 登录 
之 后 ， 发 送 电 子 邮 件 消 息 之 前 )。 

第 35—48 íT 

这 是 这 段 脚本 的 主要 部 分 ， 它 仅仅 测试 这 两 个 函数 。 用 这 两 个 函数 创建 消息 ， 然 后 添加 
From, To. Subject 字段 ， 然 后 将 消息 传送 给 这 些 收 件 人 。 当 然 ， 为 了 让 应 用 能 够 工作 ， 需 要 
填充 下 面 的 字段 SENDER. RECIPS. SOME IMG FILE. 


3.5.2 ”解析 电子 邮件 


与 从 零 生 成 一 封 电 子 邮 件 相 比 ， 解 析 电 子 邮 件 简单 一 些 。 一 般 要 用 到 email 包 中 的 几 个 
工具 4 emailmessage_from_string0 函 数 ， 以 及 message.walk()fll message.get_payload() 方 法 。 
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下 面 是 一 个 典型 的 模式 。 


def processMsg (entire msg): 
body = '' 


msg = email.message from string(entire msg) 


if msg.is multipart(): 


for part in msg.walk(): 


if part.get content type() == 'text/plain': 


else: 


else: 


body = part.get payload() 
break 


body = msg.get payload(decode-True) 


body = msg.get payload(decode-True) 


return body 


这 段 代 码 很 容易 至 
e  email.message from string(): 来 解析 消息 。 
e msg.walkQ: 遍历 消息 的 附件 。 
e  part.get content typeQ: 获得 正确 MIME 类 型 。 





E 














解 。 下 面 是 其 中 的 主要 函数 解释 。 


















































e msg.get_payload(): 从 消息 正文 中 获取 特定 的 部 分 。 通 常 decode 标记 会 设 为 True， 
即 邮 件 正文 根据 每 个 Content-Transfer-Encoding 头 解 码 。 


3.5.3 基于 Web 的 云 电子 邮件 服务 
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目前 为 止 ， 本 章 介 绍 的 相关 协议 的 示例 大 部 分 情况 下 是 针对 理想 状态 ， 其 中 没有 涉及 























安全 或 其 他 杂乱 的 问题 。 不 过 前 面 提 到 了 一 些 服务 器 需要 登录 。 
但 在 实际 编码 中 ， 需 要 应 对 现实 的 威胁 ,防止 实际 维护 的 服务 器 成 为 黑客 的 目标 ， 这 
些 黑 客 会 试图 将 服务 器 作为 垃圾 或 钓鱼 邮件 的 转发 器 ,或 用 于 其 他 恶意 行为 ,这 些 系统 ( 主 
























































要 是 邮件 系统 ) 会 


















































行 相应 的 封锁 。 本 章 前 面 的 示例 中 ,使 用 的 是 来 自 ISP 的 通用 电子 邮 


























件 服务 。 由 于 已 经 每 个 月 付费 使 用 了 因特网 服务 ， 因 此 就 “免费 ”获得 了 上 传 /发 送 和 下 

















载 /接收 功能 。 











现在 来 看 看 一 些 基 于 Web 的 公开 电子 邮件 服务 , 如 Yahoo! Mail 和 Google 的 Gmail 服务 。 






































因为 这 些 是 SaaS (Software as a Serveice， 软 件 即 服务 类 型 的 云 服务 ， 无 须 每 月 支付 费用 ， 
所 以 看 起 来 是 完全 免费 的 。 但 用 户 通 常会 看 到 一 些 投 放 的 广告 。 若 投放 的 广告 越 精 确 ， 则 服 
务 提供 商 就 能 获得 越 多 的 收益 ， 以 此 填补 提供 这 些 服 务 的 开销 。 













































































Gmail 使 用 算法 扫 











电子 邮件 消息 ， 对 内 容 进行 评价 ， 然 后 通过 优秀 的 机 器 学 习 算 法 来 精 









































准 地 投放 广告 。 与 一 般 的 广告 相 比 , 这 些 精确 的 广告 会 更 加 吸引 用 户 。 这 些 广告 一 般 是 纯 文 本 ， 





位 于 电子 邮件 消息 


TA 























的 右边 。 由 于 算法 的 作用 ，Google 不 仅 为 Web 访问 免费 提供 Gmail AK 




















务 ， 还 允许 客户 端 服 务 使 用 POP3、IMAP4 向 外 传送 消息 ， 以 及 使 用 SMTP 发 送 电子 邮件 。 





























106 第 1 部 分 通用 应 用 主题 





























男 一 个 方面 , Yahoo! 用 图 片 的 形式 投放 广告 ,这 些 图 片 会 嵌入 到 Web 应 用 中 。 由 于 Yahoo! 
告 投放 得 不 精确 , 因此 获得 的 收益 也 少 。 因 此 有 些 服务 需要 付费 订阅 (通过 Yahoo! Mail Plus 
的 形式 )， 这 样 才能 下 载 电 子 邮 件 。 另 一 个 原因 可 能 是 Yahoo! 不 想 用 户 很 方便 地 就 能 移动 他 
们 的 电子 邮件 。 在 编写 本 书 时 ，Yahoo! 当 前 无 法 通过 SMTP 发 送 电 子 邮 件 。 在 本 节 的 后 续 部 
分 会 看 到 有 关 这 两 个 电子 邮件 服务 的 示例 代码 。 


3.5.4 最 佳 实践 : 安全 、 重 构 


这 里 还 要 花 点 时 间 讨 论 一 些 优秀 的 实践 准则 ， 如 安全 性 和 重 构 。 有 时 最 好 的 计划 也 会 受 
挫 于 不 同 版 本 之 间 的 差异 ， 比 如 ， 新 版 本 会 对 老 版 本 进行 改进 并 修复 之 前 未 曾 发 现 的 bug。 
所 以 在 实际 中 ， 所 做 的 工作 会 比 原先 预想 的 要 多 。 
TE T fÆ Google 和 Yahoo! 两 个 邮件 服务 之 前 ， 先 看 看 每 组 示例 中 会 用 到 的 一 些 样板 代码 。 


from imaplib import IMAP4_SSL 








































































































































































































































































































from poplib import POP3 SSL 








from smtplib import SMTP SSL 
from secret import * # where MAILBOX, PASSWD come from 


who = . . . # xxx@yahoo/gmail.com where MAILBOX = xxx 
from_ = who 
to = [who] 


headers = [ 
"From: $s' $ from, 
'To: $s' $ ', '.join(to), 
'Subject: test SMTP send via 465/SSL', 


msg = '\r\n\r\n'.join(('\r\n'.join(headers), 'NrMn'.join(body))) 


首先 ， 注 意 ， 现 在 已 经 不 在 温室 里 了 ， 而 是 实际 的 开发 环境 中 ， 因 此 需要 加 密 Web 上 的 
连接 。 所 以 使 用 三 个 协议 的 SSL 等 价 版 本 ， 因 此 原先 的 每 个 类 名 后 面 添加 了 “_SSL”。 

其 次 ， 不 能 像 前 面 那样 在 代码 中 使 用 纯 文 本 保存 登录 名 和 密码 。 在 实际 中 ， 将 用 户 名 和 
密码 以 纯 文 本 形式 嵌入 到 源码 中 是 糟糕 透顶 的 做 法 。 这 些 信 息 应 该 要 么 从 安全 的 数据 库 中 获 
取 ， 要 么 从 编译 后 的 字 节 码 文件 〈.pyc 或 .pyo 文件 ) 获取 ， 要 么 从 公司 内 联网 中 的 服务 器 或 
代理 中 获取 。 这 个 例子 中 假设 这 些 信 息 位 于 secret.pye 文件 中 , 其 中 的 MAILBOX 和 PASSWD 
属性 表示 等 价 的 私有 信息 。 



















































































c-r 
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最 后 一 组 变量 仅仅 表示 实际 的 电子 邮件 消息 ， 以 及 发 件 人 和 收 件 人 《为 了 简化 ， 这 里 发 
件 人 和 收 件 人 是 同一 个 人 )。 构建 电子 邮件 消息 本 身 的 方法 比 前 一 节 介 绍 的 稍微 复杂 一 些 , 前 
面 的 邮件 消息 正文 是 单个 字符 串 ， 需 要 填充 相应 的 字段 数据 。 














body = '''\ 
From: %(who)s 
To: $(who)s 
Subject: test 


Hello World! 
'"' ('who': 




















但 这 里 选择 使 用 列表 葵 换 前 面 的 字符 串 。 因 为 在 实际 中 ， 



































msg 


who} 



































BB 子 邮件 消息 正文 是 由 应 用 生 


























成 或 控制 的 ， 而 不 是 硬 编码 的 字符 串 。 在 电子 邮件 头 中 使 用 字符 串 或 许可 行 。 但 使 用 列表 可 
以 方便 地 向 电子 邮件 中 添加 《或 从 中 移 除 ) 某 一 行 的 内 容 。 当 邮件 已 经 准备 发 送 时 ， 只 需 使 























































































































Jw Ww 对 调用 strjoin0 就 可 以 组 装 成 正文 (本 章 前 面 章节 介 绍 过 ,\evm 是 兼容 RFC5322 的 SMTP 











的 服务 器 使 用 的 正式 分 隔 符 ， 其 他 有 些 服 务 器 只 接受 换行 符 )。 
对 于 消息 正文 的 数据 还 做 了 另 一 点 小 的 修改 ， 邮 件 的 收 件 人 可 能 不 止 一 个 , 所 以 to 的 变 








量 类 型 也 改 成 了 列表 。 






































因此 在 创建 最 终 的 电子 邮件 头 时 需要 使 用 strjoin0 将 收 件 人 连接 到 一 




















起 。 最 后 ， 查 看 在 Yahoo! Mail 和 Gmail 示例 中 会 用 到 的 一 个 特殊 功能 函数 。 这 个 函数 仅仅 
获取 入 站 电子 邮件 消息 的 Subject 行 。 























def getSubjec 
WU 


t(msg, default='(no Subject line)'): 


getSubject (msg) - 'msg' is an iterable, not a 


delimited single string; this function iterates 


over 'msg' look for Subject: line and returns 


if found, 
found in 


for line 


else the default is returned if one isn't 
the headers 


in msg: 


if line.startswith('Subject:'): 


return line.rstrip() 


if not line: 


return default 








getSubject(O) 函 数 很 简单 ， 它 只 查找 邮件 标题 中 的 Subject 行 。 如 果 发 现 了 一 个 ， 该 函数 就 

















立即 返回 。 如 果 遇 到 空 行 ， 就 表示 邮件 标题 已 结束 ， 因 此 如 果 此 时 没有 找到 Subject 行 ， 则 返 














回 一 个 默认 值 。 这 个 喝 






































认 值 是 一 个 本 局 部 变量 ， 含 有 默认 参数 。 用 户 可 以 传递 自 定 义 的 默认 



































字符 串 。 出 于 性 能 方面 
方法 。 但 line[:8] 会 调 月 
timeit 测试 所 示 。 
































的 考虑 , 有 些 读者 可 能 使 用 line[:8] == 'Subject 来 避免 调用 str.startswith() 
str，_getslice “0 。 不 过 说 实话 ， 这 种 方法 比 strstartswithOR 40%, 4 





























108 第 1 部 分 通用 应 用 主题 
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>>> t = timeit.Timer('s[:8] == "Subject:"', 's-"Subject: xxx"') 
>>> t.timeit () 

0.14157199859619141 

>>> t.timeit () 

0.1387479305267334 

>>> t.timeit () 

0.13623881340026855 

>>> 
>>> t = timeit.Timer('s.startswith("Subject:")', 's="Subject: xxx"') 
>>> t.timeit () 

0.23016810417175293 

>>> t.timeit () 

0.23104190826416016 

>>> t.timeit () 

0.24139499664306641 















































使 用 timeit 是 另 一 个 好 习惯 ， 前 面 已 经 碰 到 过 好 多 次 了 。 如 果 有 两 个 代码 完成 相同 的 工 


作 ， 使 用 timeit 可 以 知道 哪 一 种 效率 更 高 。 现 在 来 看 如 何在 实际 代码 中 使 用 这 些 技术 。 





3.5.5 Yahoo! Mail 























假设 前 面 的 样板 代码 已 经 执行 过 了 ,现在 首先 介绍 Yahoo! Mail。 这 里 的 代码 是 示例 3-3 的 

















扩展 。 其 中 还 会 通过 STMP 发 送 电子 邮件 ， 但 通过 POP 和 IMAP 接收 邮件 。 下 


S = SMTP_SSL('smtp.mail.yahoo.com', 465) 
S.login(MAILBOX, PASSWD) 
S.sendmail(from , to, msg) 

s.quit() 

print 'SSL: mail sent!' 


S = POP3 SSL('pop.mail.yahoo.com', 995) 
s.user (MAILBOX) 

s.pass_ (PASSWD) 

rv, msg, sz = s.retr(s.stat()[0]) 
s.quit () 

line = getSubject (msg) 

print 'POP:', line 


s = IMAP4 SSL('imap.n.mail.yahoo.com', 993) 
s.login (MAILBOX, PASSWD) 

rsp, msgs = s.select('INBOX', True) 

rsp, data = s.fetch(msgs[0], '(RFC822)') 
line = getSubject (StringIO (data[0][11)) 
s.close() 

s.logout () 

print 'IMAP:', line 


假设 将 所 有 这 些 内 容 都 放 在 ymail.py 文件 
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， 然 后 通过 下 面 的 方式 执行 。 
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$ python ymail.py 

SSL mail sent! 

POP: Subject:Meet singles for dating, romance and more. 
IMAP: Subject: test SMTP send via 465/SSL 


在 这 个 例子 中 ， 下 载 电子 邮件 需要 有 一 个 Yahoo! Mail Plus 账号 〈 而 无 论 是 否 是 付费 用 户 ， 

发 送 都 是 免费 的 )。 但 有 些 功能 无 法 正常 工作 。 首 先 ，POP 无 法 获取 发 送 的 邮件 ， 但 IMAP 可 以 
找到 相应 的 邮件 。 一 般 来 说 ，IMAP 更 加 可 靠 。 同 时 在 前 面 的 例子 中 ， 假 设 读者 是 付费 用 户 ， 并 
使 用 Python 2.6.3 及 更 新 的 版 本 。 如 果 不 满足 这 些 要 求 ， 需 要 进行 设置 ， 不 过 设置 起 来 也 很 方便 。 
如 果 不 是 Yahoo! Mail Plus 付费 用 户 ,， 则 不 能 下 载 电子 邮件 。 非 付费 用 户 试图 下 载 电 子 邮 
件 时 会 出 现下 面 的 报错 消息 。 


Traceback (most recent call last): 

































































































































































7 





ile "ymail.py", line 101, in «module» 

s.pass_ (PASSWD) 

File "/Library/Frameworks/Python.framework/Versions/2.7/1lib/ 
python2.7/poplib.py", line 189, in pass. 
return self. shortcmd('PASS $s' $ pswd) 
File "/Library/Frameworks/Python.framework/Versions/2.7/1lib/ 
python2.7/poplib.py", line 152, in | shortcmd 
return self. getresp() 























File "/Library/Frameworks/Python.framework/Versions/2.7/1lib/ 














python2.7/poplib.py", line 128, in  getresp 
raise error proto(resp) 





poplib.error proto: -ERR [SYS/PERM] pop not allowed for user. 


另外 ，STMP_SSL 类 添加 自 Python 2.6, [HE 2.6.3 之 前 都 有 bug。 所 以 为 了 编写 正确 使 
] SMTP 和 SSL 的 代码 ,需要 2.6.3 及 其 更 新 版 本 的 Python。 如 果 使 用 的 Python 版 本 早 于 2.6, 
则 无 法 使 用 这 个 类 ; 如 果 使 用 的 Python 版 本 在 2.6.0—2.6.2 之 间 ， 则 会 得 到 下 面 这 样 的 错误 。 


Traceback (most recent call last): 
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ile "ymail.py", line 61, in «module» 
S.login(MAILBOX, PASSWD) 
File "/System/Library/Frameworks/Python.framework/Versions/2.6/1lib/ 





python2.6/smtplib.py", line 549, in login 
self.ehlo or helo if needed() 


ile "/System/Library/Frameworks/Python.framework/Versions/2.6/1lib/ 
python2.6/smtplib.py", line 509, in ehlo or helo if needed 

if not (200 <= self.ehlo() [0] <= 299): 
File "/System/Library/Frameworks/Python.framework/Versions/2.6/1lib/ 
python2.6/smtplib.py", line 382, in ehlo 
self.putcmd(self.ehlo msg, name or self.local hostname) 


























ile "/System/Library/Frameworks/Python.framework/Versions/2.6/1lib/ 
python2.6/smtplib.py", line 318, in putcmd 
self.send(str) 
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实际 工作 中 总 会 遇 到 的 一 些 问 题 


通用 应 用 主题 








le "/System/Library/Frameworks/Python.framework/Versions/2.6/1lib/ 
on2.6/smtplib.py", line 310, in send 

raise SMTPServerDisconnected('please run connect() first') 
lib.SMTPServerDisconnected: please run connect() first 


的 问题 会 让 人 抓 狂 。 这 里 模拟 出 这 些 问 是 ， 和 希望 不 会 打击 到 读者 。 


现在 来 整理 一 下 输出 。 但 更 重要 的 是 ， 添加 实际 环境 中 所 需要 的 版 本 检查 代码 ， 忆 











好 。 示 例 3-5 


显示 了 最 终 版 本 的 ymail.py。 


示例 3-5 Yahoo! Mail SMTP, POP, IMAP 示例 《ymail.py) 
这 上段 代码 通过 SMTP. POP. IMAP 使 用 了 yahoo! Mail 服务 。 


D O06 —) DO UA 4 OU PH — 

















#!/usr/bin/env python 
'ymail.py - demo Yahoo!Mail SMTP/SSL, POP, IMAP' 


from cStringIO import StringIO 

from imaplib import IMAP4_SSL 

from platform import python version 

from poplib import POP3 SSL, error proto 
from socket import error 


# SMTP SSL added in 2.6, fixed in 2.6.3 
release = python version() 
if release » '2.6.2': 
from smtplib import SMTP SSL, SMTPServerDisconnected 
else: 
SMTP SSL = None 


from secret import *  # you provide MAILBOX, PASSWD 
who = '%s@yahoo.com' % MAILBOX 
from_ = who 

= [who] 


headers = [ 


"From: %s' % from , 

'To: %s' % ', '.join(to), 

"Subject: test SMTP send via 465/SSL', 
] 
body = [ 

'Hello', 

'World!', 


] 
msg = '\r\n\r\n'.join(C'\r\n'.joinCheaders), '\r\n'.join(body))) 
def getSubject(msg, default-'(no Subject line)'): 

DIN 


getSubject(msg) - iterate over 'msg' looking for 
Subject line; return if found otherwise 'default' 
for line in msg: 
if line.startswith('Subject:'): 
return line.rstripQ 
if not line: 


， 从 来 不 会 像 教科 书 上 那样 完美 。 这 些 奇怪 、 无 法 预测 


习惯 就 


yo 
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return default 


45 # SMTP/SSL 
46 print '*** Doing SMTP send via SSL...' 
47 if SMTP SSL: 


48 try: 
49 s = SMTP SSL('smtp.mail.yahoo.com', 465) 
50 S.login(MAILBOX, PASSWD) 
51 s.sendmail(from , to, msg) 
52 s.quitQ 
53 print ' SSL mail sent!' 
54 except SMTPServerDisconnected: 
55 print ' error: server unexpectedly disconnected... try 
again' 
56 else: 
57 print ' error: SMTP_SSL requires 2.6.3+' 
58 
59 # POP 
60 print '*** Doing POP recv...' 
61 try: 
62 S = POP3 SSL('pop.mail.yahoo.com', 995) 
63 s.user(MAILBOX) 
64 s.pass (PASSWD) 
65 rv, msg, sz = s.retr(s.stat()[0]) 
66 s.quit() 
67 line = getSubject (msg) 
68 print ' Received msg via POP: %r' % line 
69 except error proto: 
70 print ' error: POP for Yahoo!Mail Plus subscribers only' 
71 
72 # IMAP 
73 print '*** Doing IMAP recv...' 
74 try: 
75 s = IMAP4_SSL('imap.n.mail.yahoo.com', 993) 
76 s.login(MAILBOX, PASSWD) 
了 7 rsp, msgs = s.select('INBOX', True) 
78 rsp, data = s.fetch(msgs[0], '(RFC822)') 
79 line = getSubject(StringIO(data[0] [1])) 
80 s.close() 
81 s.logout() 
82 print ' Received msg via IMAP: %r' % line 
83 except error: 
84 print ' error: IMAP for Yahoo!Mail Plus subscribers only 
EE. no 
了 解释 
1—8 4 
些 是 标准 起 始 行 和 导入 行 。 
10—15 行 








这 里 通过 platform.python_version() 获 取 字 符 串 形式 的 Python 版 本 号 。 只 有 在 使 用 2.6.3 


及 更 新 版 本 的 Python 时 才 导 入 smtplib 属 





EE 


Eu 


17 一 21 4T 





前 面 提 到 过 ， 不 要 将 用 户 名 和 密码 这 些 私 有 信息 写 到 源码 文件 中 ， 而 是 将 其 放 到 














ME. APM, Xf SMTP_SSL 设置 为 None. 




















他 地 
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方 , 如 编译 过 的 字 节 
PASSWD 数据 。 由 于 这 只 是 个 测试 应 


AACA 





















































第 23 一 32 íF 








这 一 部 分 代码 组 


成 








ae 





子 邮 























便 地 生成 )， 第 28 一 31 行 用 
末尾 CB 32 行 )， 























整个 消息 正文 。 


第 34~43 íF 





前 面 已 经 介绍 过 getSubjectO 函 数 ， 
如 果 没 有 找到 Subject 行 ， 则 使 用 默认 字 








第 45 一 57 行 


这 是 

















这 


同 的 原因 ， 如 连接 问题 ， 








户 进行 重 试 。 


加 了 对 非 付 费用 户 试 


74—82 行 )， 并 
行使 有 
由 于 getSubject0 遍 历 其 中 的 每 一 行 ， 因 此 需要 提供 类 似 的 东西 来 与 


$ 59—70 41 


这 一 段 是 POP3 相关 的 代码 (第 62~68 行 )， 前 
图 下 载 邮件 的 检查 ， 所 以 





第 72—84 4T 
ix— Et IMAPA 代码 


























T3 X fF. secret.pyc。 这 样 一 般 月 
因此 在 获取 相关 信息 (第 17 行 ) 后 ,将 
F 人 变量 设置 为 同一 个 人 (第 19~21 行 )。 为 什么 发 件 人 变量 名 为 ffom_ ,下 是 from? 


件 消 




















于 生成 消 , 
一 行 代码 合 并 前 面 的 所 有 内 容 〈 标 题 + 






































+? 











=| 


wy 








uO 








的 正文 。 第 23~27 行 表 示 邮 件 标题 Cn 
息 正 文 〈 同 样 可 以 用 代码 生成 或 放 到 可 迭代 变量 中 )。 十 























E 文 )， 并 使 
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pa 


符 串 。 











设置 默认 值 并 不 是 必需 的 。 

















SMTP 相关 的 代码 。 前 国 
有 E， 如 果 获 得 SMTP. SSL 类 (第 
48—53 行 )。 否 则 ， 向 用 户 提示 需要 2.6.3 或 更 新 版 本 
导致 从 服务 器 断 开 。 这 种 情况 下 一 般 


需要 检查 是 否 为 付费 用 户 。 最 后 将 功能 ; 






































在 第 10—15 行 中 , 要 么 使 用 
7 130, 则 尝试 连接 到 服务 器 , 登录 并 发 送 由 





























HEATA 


























需要 在 第 69—70 行 























HH socket.error (4 
H T cStringlIO.StringIO 对 象 。 因 
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JJ IMAP ik 












































StringIO 为 一 个 长 字符 串 提 供 类 似 文件 的 接口 。 























使 











这 就 是 在 实际 当 


费 ” 的 。 另 外 ，Gmail 还 可 以 使 月 
3.5.6 Gmail 














与 Yahoo! Mail 的 示例 相同 。 因 
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^ 























异常 处 





里 程序 。 
































标准 的 SMTP (需要 用 到 TLS). 














SMTP SSL, 要 么 将 








ip 


户 就 无 法 通过 逆向 工程 获取 MAILBOX 和 











正确 的 分 隔 符 创建 


设置 








Ef 


一 起 工 





FAT 


以 用 一 些 代 码 方 


FF 





en 


n 


唯一 目的 是 在 入 站 电子 邮件 标题 中 查找 Subject 行 ， 


EN Sd 
为 空 
Vito 





F, 最 后 退出 (第 





E. 


为 这 里 下 载 电 子 邮 件 完 全 免费 ， 所 以 无 需 针 对 非 付费 











的 Python ($E 56~57 行 )。 偶 尔 会 由 


于 不 











EE 试 ， 所 以 在 第 54—55 行 通知 用 








日 关 内 容 。 唯 一 区 别 在 于 添 





总 在 一 个 try 语句 块 中 ( 














] Yahoo! Mail 的 方式 .Gmail 与 之 非常 类 似 , 只 是 所 有 访问 都 





于 是 通 


AE 





TÉ poplib.error. proto 异常 。 


Ach 


E: 





和 83—84 行 )。 读 者 注意 到 这 个 微妙 的 地 方 了 吗 ? 在 第 79 
单个 庞大 的 字符 串 来 表示 电子 邮件 的 消息 。 





H 


过 








Ei 66 


ft 


例 3-6 介绍 了 Google 的 Gmail 服务 。 除 了 通过 SSL 连接 的 SMTP 之 外 ，Gmail 还 提 
供 使 用 传输 层 安全 (Transport Layer Security, TLS) 的 SMTP， 所 以 多 了 导入 smtplib.SMTP 


类 的 语句 ， 以 及 相关 的 代码 。 除 此 之 外 ， 其 他 内 容 (通过 SSL 连接 的 SMTP. POP, IMAP) 

















TP f 











第 3 章 因特网 客户 端 编程 











示例 3-6 Gmail 的 SMTP/TLS、SMTL/SSL、POP、IMAP 示例 (gmail.py) 


这 段 代码 通过 SMTP, POP. IMAP 使 用 了 Google Gmail 服务 。 

















#!/usr/bin/env python 
'gmail.py - demo Gmail SMTP/TLS, SMTP/SSL, POP, IMAP' 


from cStringIO import StringIO 

from imaplib import IMAP4 SSL 

from platform import python version 
from poplib import POP3 SSL 

from smtplib import SMTP 


D 06-0 Uto RUP. — 


10 # SMTP SSL added in 2.6 
Il release = python version() 
12 if release > '2.6.2': 


13 from smtplib import SMTP SSL # fixed in 2.6.3 
14 else: 

15 SMTP SSL - None 

16 


17 from secret import * # you provide MAILBOX, PASSWD 


19 who = '%s@gmail.com' % MAILBOX 
20 from = who 
21 to = [who] 


22 

23 headers = [ 

24 "From: %s' % from , 

25 'To: %s' % ', '.join(to), 

26 "Subject: test SMTP send via 587/TLS', 
27 J 

28 body = [ 

29 'Hello', 

30 'World!', 

3l 


] 
32 msg = ‘\r\n\r\n'.join(C'\r\n'.joinCheaders), '\r\n'.join(body))) 


34 def getSubject(msg, default='(no Subject line)'): 


35 

36 getSubject(msg) - iterate over 'msg' looking for 
37 Subject line; return if found otherwise 'default' 
38 "'' 

39 for line in msg: 

40 if line.startswith('Subject:'): 

41 return line.rstrip() 

42 if not line: 

43 return default 

44 


45 # SMTP/TLS 

46 print '*** Doing SMTP send via TLS...' 

47 s = SMTP('smtp.gmail.com', 587) 

48 if release < '2.6': 

49 s.ehloQ # required in older releases 
50 s.starttlsQ 

51 if release < '2.5': 

52 s.ehloQ # required in older releases 
53 s.login(MAILBOX, PASSWD) 
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54 s.sendmail(from , to, msg) 


55  s.quit() 


56 print ' TLS mail sent!" 


58 # POP 


59 print '*** Doing POP recv...' 
60 s = POP3 SSL('pop.gmail.com', 995) 


61 s.user(MAILBOX) 
62 s.pass_ (PASSWD) 


63 rv, msg, sz = s.retr(s.stat()[0]) 


64 s.quitQ 
65 line = getSubject(msg) 
66 print ' 


Received msg via POP: %r' % line 


68 body = body.replace('587/TLS', '465/SSL') 


70 # SMTP/SSL 
71 if SMTP SSL: 


72 print '*** Doing SMTP send via SSL...' 
73 S = SMTP SSL('smtp.gmail.com', 465) 

74 s.login(MAILBOX, PASSWD) 

75 s.sendmail(from_, to, msg) 

76 s.quit( 

77 print ' SSL mail sent!' 

78 

79 # IMAP 


80 print '*** Doing IMAP recv...' 
81 s = IMAPA SSL('imap.gmail.com', 993) 


82 s.login(MAILBOX, PASSWD) 


83 rsp, msgs = s.select('INBOX', True) 
84 rsp, data = s.fetch(msgs[0], '(RFC822)') 
85 line = getSubject(StringIO(data[0][1])) 


86 s.close() 
87 s.logout() 


88 print ' Received msg via IMAP: %r' % line 


第 1 一 8 行 


这 些 是 常见 的 代码 起 始 行 和 导入 行 , 但 添加 了 导入 smtplib.SMTP 的 语句 。 示 例 中 会 使 用 





这 个 类 与 TLS 发 送 电子 邮件 消息 。 
第 10~43 行 











这 一 部 分 与 ymail.py 中 相似 。 其 中 一 个 区 别 是 who 变量 是 一 个 @gmail.com 电子 邮件 地 
hk (第 1947). 还 有 一 点 是 首先 使 用 STMP/TLS， 在 Subject 行 中 会 看 到 这 一 点 。 同 时 没有 导 


入 smtplib.SMTPServerDisconnected 异常 ， 
第 45 一 56 行 


























因为 在 这 个 测试 中 用 不 到 。 
































这 是 通过 TLS 连接 服务 器 的 SMTP 代码 。 从 中 可 以 看 到 ， 为 了 与 服务 器 通信 ， 老 版 本 的 
Python 需要 更 多 的 示例 代码 。 同 时 端口 号 也 与 SMTP/SSL 不 同 CIS 47159 。 
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第 58 一 88 行 

剩 下 的 代码 与 Yahoo! Mail 中 的 几乎 完全 相同 。 前 面 提 到 过 ， 这 里 移 除 了 Gmail 中 用 不 
到 的 一 些 错误 检查 。 最 后 一 个 小 差异 是 为 了 能 使 用 SMTP/TLS 和 STMP/SSL 发 送 消息 ， 需 要 
修改 Subject 行 (第 68 íF). 
希望 读者 通过 这 两 个 示例 能 够 理解 本 章 前 面 介绍 的 概念 ， 并 掌握 应 用 实际 开发 中 的 一 些 
知识 ， 以 及 在 实际 中 安全 问题 的 重要 性 ， 还 有 不 同 Python 版 本 之 间 的 细微 差别 。 虽然 希望 解 
决 方案 尽量 只 处 理 问 题 本 身 ， 但 这 与 实际 状况 不 相符 。 这 里 介绍 的 只 是 一 些 代表 问题 ， 实 际 
的 项 目 开 发 中 需要 考虑 更 多 的 问题 。 


3.6 ”相关 模块 


Python 标准 库 对 网 络 支 持 非常 完善 ， 特 别 是 在 因特网 协议 和 客户 端 开发 方面 。 下 面 列 出 
一 些 相关 模块 ， 首 先是 电子 邮件 相关 模块 ， 随 后 是 用 于 一 般 用 途 的 因特网 协议 的 模块 。 
3.6.1 电子 邮件 
Python 自 带 了 很 多 电子 邮件 相关 的 模块 和 包 , 可 以 用 来 构建 应 用 程序 。 表 3-6 列 出 了 一 部 分 。 
表 3-6 电子 邮件 相关 模块 
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模 块 包 描 X 
email 于 处 理 电子 邮件 的 包 〈 也 支持 MIME) 
smtpd SMTP 服务 器 
base64 Base-16、32、64 数据 编码 (RFC 3548) 
mhlib 处 理 MH 文件 夹 和 消息 的 类 
mailbox 支持 mailbox 文件 格式 解析 的 类 
mailcap “mailcap” 文 件 的 处 理 模块 
mimetools CF) MIME 消息 解析 工具 (使 用 上 面 的 email 模块 ) 
mimetypes 在 文件 名 /URL 和 相关 的 MIME 类 型 之 间 转 换 的 模块 
MimeWriter CRF) MIME 消息 处 理 模块 〈 使 用 上 面 的 email 模块 ) 
mimify (废弃 ) MIME 消息 处 理工 具 〈 使 用 上 面 的 email 模块 ) 
quopri 对 MIME 中 引号 括 起 来 的 可 打印 数据 进行 编码 或 解码 
binascii 二 进 制 和 ASCII 转换 
binhex Binhex4 编码 和 解码 支持 








3.6.2 ”其 他 因特网 客户 端 协议 
表 3-7 列 出 了 其 他 因特网 客户 端 协议 方面 的 模块 。 
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表 3-7 ”因特网 客户 端 协议 相关 模块 























模 块 描 述 
ftplib FTP 协议 客户 端 
xmlrpclib XML-RPC 协议 客户 端 

httplib HTTP 和 HTTPS 协议 客户 端 
imaplib IMAP4 协议 客户 端 
nntplib NNTP 协议 客户 端 
poplib POP3 协议 客户 端 
smtplib SMTP 协议 客户 端 





3.7 练习 


FTP 


3-1 简单 FTP 客户 端 。 参 考 本 章 的 FTP 例子 ， 写 一 个 小 的 FTP 客户 端 程序 ， 能 够 去 
你 喜欢 的 网 站 下 载 所 使 用 的 软件 的 最 新 版 本 。 这 个 脚本 应 该 每 几 个 月 就 运行 一 
次 ， 以 确保 你 在 用 的 软件 是 “最 新 和 最 好 的 ” 应 该 把 FTP 地 址 、 登 录 名 、 密 码 
信息 放 在 一 个 表 里 ， 省 得 每 次 都 要 修改 。 

3-2 简单 FTP 客户 端 和 模式 匹配 。 在 上 一 个 练习 的 基础 上 创建 一 个 新 的 FTP 客户 端 程 
序 。 可 以 通过 指定 模式 从 远程 主机 上 传 和 下 载 文 件 。 比 如 ， 如 果 想 把 一 些 Python 
或 PDF 文件 从 一 台 计 算 机 传 到 另 一 台 计算 机 上 , 让 用 户 输入 “*.py ”或 “doc*.pdf”， 
程序 会 只 传 这 些 文件 名 匹配 的 文件 。 

3-3 ”智能 FIP 命令 行 客户 端 程序 。 创 建 一 个 与 UNIX 下 /bin/ftp 类 似 的 命令 行 FTP 应 用 程 
序 ,不 过 , 这 个 FIP 客户 端 要 更 好 一 些 , 能 提供 更 有 用 的 功能 。 可 以 参考 http:/ncftp.com 
的 ncFTP。 应 用 程序 需要 有 以 下 功能 : 历史 记录 、 书 签 (可 以 保存 FTP 地 址 和 登录 信 
息 )、 下 载 进度 显示 等 。 可 以 用 readline 来 记录 历史 命令 ， 用 curses 来 控制 屏幕 。 

3-4 FIP 和 多 线程 。 创 建 一 个 能 使 用 Python 线程 库 下 载 文件 的 FIP 客户 端 程序 。 读 者 
可 以 通过 修改 上 一 个 练习 的 程序 或 者 重 写 一 个 更 简单 的 客户 端 来 下 载 文件 要 么 在 
命令 行 参数 里 指定 要 下 载 的 文件 ， 要 么 做 一 个 GUI， 在 界面 中 让 用 户 选 择 要 下 载 
的 文件 。 选 做 题 : 支持 模式 ， 如 *.exe; 使 用 不 同 的 线程 来 下 载 每 个 文件 。 

3-5 FTP 和 GUI. 在 练习 3-3 中 编写 的 FIP 客户 端 程序 中 加 入 GUL 让 其 成 为 一 个 完整 
的 FTP 应 用 程序 。 可 以 使 用 Python 的 任何 GUI 工具 包 。 

3-6“ 子 类 化 。 从 ftplib.FTP 派生 出 一 个 FTP2 类 ， 在 这 个 类 中 ， 不 用 像 之 前 那 4 个 retrs0O 和 
stor#x() 方 法 中 那样 要 给 定 “STOR fename” 或 “RETR flename” 这 样 的 命令 。 只 要 传 
文件 名 。 要 么 重 写 已 有 的 方法 ， 要 么 在 已 有 的 方法 名 后 加 一 个 后 缀 2， 如 retrlines2(). 
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Python 源码 包 中 有 一 个 Tools/scripts/ftpmirror.py 脚本 ， 这 个 脚本 使 用 ftplib 模块 ， 
可 以 对 整个 FTP 站 点 或 FTP 站 点 的 一 部 分 做 镜像 。 它 可 以 作为 ftplib 模块 应 用 的 扩展 例 








TREH. 解答 下 面 5 个 练习 时 ， 可 以 参考 这 个 脚本 。 读 者 可 以 直接 使 用 ftpmirrorpy 里 
的 代码 ， 也 可 以 参考 这 个 脚本 自己 


3-7 


3-8 


3-9 


3-10 


3-11 


3-12 


3-13 


3-14 


3-15 






































lumi 

















新 写 一 个 。 












































递归 。ftpmirror.py 脚本 递归 复制 远程 目录 。 遍 写 一 个 与 ftpmirror.py 相似 的 脚本 ， 





























制 到 本 地 文件 系统 中 。 



































其 默认 行为 是 非 递归 的 。 只 有 在 指定 了 “-r” 选 项 的 时 候 才 递归 地 把 文件 子 目 录 复 


















































模式 匹配 。ftpmirrorpy 脚本 支持 “-s” 选 项 ， 让 用 户 指定 模式 (如 “*.exe”)， 和 忽略 掉 
匹配 的 文件 。 重 新 写 一 个 更 简单 的 FIP 客户 端 程序 或 修改 之 前 的 程序 ， 实 现 让 用 户 


























指定 通配符 ， 程 序 只 能 下 载 匹 配 模式 的 文件 。 可 以 在 之 前 练习 的 答案 基础 上 实现 。 
递归 和 模式 匹配 。 写 一 个 FTP 客户 端 程序 ， 把 练习 3-7 和 练习 3-8 的 脚本 集成 在 





一 起 。 














递归 和 ZIP 文件 。 这 个 练习 与 练习 3-7 有 些 相似 ， 只 是 不 再 直接 把 文件 下 载 到 本 
地 文件 系统 中 ， 而 是 升级 现 有 的 FTP 客户 端 或 创建 一 个 新 的 客户 端 来 下 载 远程 文 
件 ， 并 将 其 压缩 到 一 个 ZIP (或 TGZ、BZ2) 文件 中 。 使 用 “-z” 选 项 让 用 户 可 以 

















自动 地 备份 一 个 FTP 站 点 。 




































































集成 。 实 现 一 个 最 终 的 、 功 能 齐全 的 FTP 应 用 程序 ， 包 含 练习 3-7 一 练习 3-10 的 
所 有 功能 。 即 支持 “-r”“-s” 和 “-z” 选 项 。 


NNTP 











大 








NNTP 介绍 。 修 改 示 例 3-2〈(getLatestrNNTPpy)， 让 其 显示 第 一 篇 (而 不 是 最 后 一 





篇 ) 可 用 文章 中 有 意义 的 内 容 。 




















代码 改进 。 修 正 getLatestNNTP.py 中 就 会 输出 3 次 引用 行 的 问题 ， 这 是 因为 之 前 想 
旦 不 应 该 显示 3 次 引用 的 文本 。 用 检查 “>>>” 后 的 
代码 是 否 为 合法 Python 代码 的 方式 来 解决 这 个 问题 。 如 果 合 法 ， 那 就 显示 这 一 行 数 





输出 Python 交互 解释 的 内 容 ， 
























































据 ， 如 果 不 合 法 ， 就 认为 是 引用 文本 ， 不 显示 。 选 做 题 : 再 解决 这 样 一 个 小 问题 ， 























这 里 没有 去 掉 前 导 空 格 , 因为 它 可 能 是 Python 代码 的 缩 进 。 如 果真 的 是 代码 的 缩 ; 
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就 显示 它 ， 和 否则 ， 认 为 它 是 一 般 的 文本 ， 先 使 用 lstrip0 方 法 处 理 后 再 显示 。 


























查找 文章 。 编 写 一 个 NNTP BP i 
































i 程序， 让 用 户 能 选择 并 登录 感 兴趣 的 新 闻 组 。 


















































在 登录 成 功 后 ,提示 用 户 输入 一 些 关 键 字 , 使 用 这 些 关 键 字 来 查找 文章 的 标题 。 把 























符合 要 求 的 文章 列 出 来 显示 给 ) 





]P. | 











{Pa 




















以 在 列表 中 选择 某 一 篇 文章 进行 阅读 ， 








这 时 要 能 显示 选 定 文章 的 内 容 。 











程序 还 要 有 简单 的 导航 功能 ， 如 分 页 等 。 如 果 没 有 


给 出 搜索 关键 字 ， 则 显示 当前 所 有 的 文章 。 
搜索 内 容 。 修 改 上 一 练习 的 解决 方案 ， 让 代码 同时 搜索 主题 和 文章 正文 内 容 。 允 








A REET “EP CAND) 





te 

















A “BK” COR) 操作 。 也 允许 指定 在 标题 和 文章 正 
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文 内 容 的 “与 ”(AND) All “ak” COR) 操作 ， 即 要 处 理 以 下 一 种 情形 ; 关键 字 要 

只 在 标题 里 出 现 、 只 在 正文 内 容 里 出 现 ， 或 者 两 者 里 面 都 要 出 现 。 

3-16 S 这 不 是 说 要 写 一 个 多 话题 的 阅读 工具 ， 而 是 把 相关 的 
回帖 组 织 到 “话题 ”中 。 也 就 是 说 ， 把 相关 的 文章 放 在 一 起 ， 这 与 文章 的 发 布 时 间 
Ps 同一 个 话题 中 的 文章 按时 间 顺 序 排列 。 用 户 可 以 : 
a) 选择 某 一 篇 文章 《正文 ) 进行 阅读 ， 然 后 可 以 选择 回 到 文章 列表 视图 ， 顺 序 阅 
读 当前 话题 的 前 一 篇 文章 或 后 一 篇 文章 。 
b) 允许 回复 话题 ， 可 以 选择 复制 并 引用 之 前 的 文章 ， 用 跟 贴 的 方式 回复 整个 新 闻 
组 。 选 做 题 : 也 允许 用 电子 邮件 回复 给 个 人 。 
c) 永久 地 删除 话题 ， 即 后 续 的 相关 文章 不 会 显示 在 文章 列表 中 。 要 实现 这 个 功能 
需要 使 用 列表 记录 需要 删除 的 话题 ， 这 样 就 不 会 再 次 显示 相关 话题 。 知 一 个 话题 在 
几 个 月 之 后 还 没有 人 回复 ， 就 可 以 认为 这 个 话题 已 经 死 了 。 

3-17 GUI 新 闻 阅 读 工具 。 与 上 面 的 FTP 练习 差不多 , 选择 一 个 Python GUI 工具 包 来 实 
现 一 个 完整 独立 的 GUI 新 闻 阅 读 工 具 。 

3-18 £74.49 FTP 的 ftpmirror.py 一 样 ,NNTP 也 有 一 个 示例 脚本 : Demo/scripts/newslist.py。 
运行 这 个 脚本 。 这 个 脚本 在 很 久之 前 编写 的 , 读者 可 以 做 一 些 翻 新 工作 。 作为 练习 ， 

要 用 Python 新 版 本 的 一 些 特性 和 Python 开发 技巧 来 重 构 这 个 脚本 ， 让 这 个 脚本 运 
行 得 更 快 。 可 以 使 用 列表 解析 和 生成 器 表达 式 , 用 更 智能 的 字符 串 连接 而 不 是 调用 
不 必要 的 函数 等 。 

3-19 缓存 。 如 其 作者 所 说 ，newslistpy 的 另 一 个 问题 是 ,“ 我 应 该 把 要 忽略 的 空 的 新 闻 组 
列表 保存 下 来 ， 在 每 次 运行 的 时 候 检查 一 下 是 否 有 新 的 文章 ， 但 我 真 的 抽 不 出 时 间 ”。 
读者 尝试 实现 这 个 功能 。 可 以 直接 修改 这 个 脚本 ， 也 可 以 修改 练习 3-18 中 的 脚本 。 


电子 邮件 


320 ”标识 符 。POP3 调用 login() 方 法 发 送 了 登录 名 之 后 ， 使 用 pass_() 方 法 发 送 密码 。 
那 为 什么 这 个 方法 命名 时 要 在 后 面 加 一 个 下 划 线 ， 即 “pass_0”， 而 不 是 直接 使 用 

“pass()”? 
3-21 POP 和 IMAP。 编 写 一 个 应 用 程序 ， 它 使 用 poplib 类 (POP3 或 POP3_SSL) FE 
电子 邮件 ， 再 使 用 imaplib 完成 相同 的 事情 。 读 者 可 以 参阅 本 章 前 面 的 代码 。 同 时 
为 什么 需要 将 登录 名 和 密码 信息 从 源 代码 中 移 除 ? 
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下 面 的 练习 与 本 章 示例 3-3 中 的 myMail.py 应 用 程序 有 关 。 

3-22 ”电子 邮件 标题 。 在 myMail.py 的 最 后 几 行 ， 比 较 了 发 送 的 消息 正文 与 接收 到 的 电子 邮 
件 消息 正文 。 编 写 一 段 相 似 的 代码 ， 比 较 消 息 标 题 。 提 示 : 要 忽略 新 加 入 的 标题 

3-23 ”错误 检查 。 添 加 对 SMTP 和 POP3 的 错误 检查 。 
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SMTP 和 IMAP. JIA IMAP 的 支持 。 选 做 题 : 支持 两 种 邮件 下 载 协议 ， 让 用 户 选 








择 要 使 用 哪 一 种 协议 。 
撰写 电子 邮件 。 扩 展 练习 3-24 的 程序 ， 允 许 用 户 撰 写 和 发 送 电 子 邮 件 。 





















































电子 邮件 应 用 程序 。 再 次 扩展 之 前 的 电子 邮件 应 用 程序 ， 在 其 中 加 入 更 有 用 的 邮 
箱 管理 功能 。 应 用 程序 要 能 读 出 当前 所 有 电子 邮件 消息 ， 并 显示 其 Subject 行 。 用 
户 可 以 选择 并 查看 某 一 封 邮件 。 选 做 题 : 要 能 支持 用 外 部 应 用 程序 查看 附件 。 

GUI。 向 上 一 个 练习 的 解决 方案 中 添加 一 个 GUI 层 ， 让 它 成 为 一 个 实际 上 完整 的 





































































































电子 邮件 应 用 程 请 





SH 











垃圾 邮件 的 特点 。 不 请 自 来 的 垃圾 邮件 是 当今 的 一 大 问题 。 所 幸 ， 针 对 这 个 问题 
































特点 。 




















有 不 少 好 的 解决 方案 。 这 里 不 用 另辟蹊径 , 而 是 想 让 读者 了 解 一 些 处 理 垃圾 邮件 的 


a)“mbox” 格 式 。 在 开始 之 前 ， 先 要 将 需要 处 理 的 电子 邮件 消息 转 为 一 个 常见 格 
式 ， 比 如 mbox 格式 (读者 也 可 以 使 用 别 的 格式 )。 一 旦 已 经 有 了 一 些 mbox 格式 
的 消息 ， 就 把 它们 合并 到 一 个 文件 中 。 提 示 : 使 用 mailbox 模块 和 email €. 

b) 标题 。 很 多 电子 邮件 的 从 邮件 标题 上 就 能 看 是 否 为 垃圾 邮件 (可 以 用 email 包 
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解析 邮件 标题 ， 也 可 自行 手动 解析 )。 写 一 段 代码 来 解决 以 下 问题 。 
© 发 送 这 条 消息 的 电子 邮件 客户 端 软件 是 什么 ? (检查 X-Mailer 标题 ) 
e TEX ID (Message-ID 标题 ) 的 格式 是 否 合法 ? 


























e From, Received, Return-Path 标题 的 域名 是 否 匹 配 ? 域名 和 下 地 址 是 否 匹 配 ? 











有 没有 X-Authentication- Warning 标题 ? 如 果 有 ， 内 容 是 什么 ? 














c) 信息 服务 器 。 一 些 服务 器 (如 WHOIS. SenderBase.org 等 ) 可 以 根据 IP 地 址 或 


域名 帮助 找到 电子 邮件 来 自 何方 。 找 到 一 些 这 样 的 服务 ， 写 一 些 代 码 来 得 至 
的 国家 、 城 市 、 网 络 所 有 者 的 名 字 、 联 系 方法 等 。 











I 来 源 地 








d) 关键 字 。 垃 圾 邮件 中 有 一 些 单词 经 常 出 现 。 之 前 一 定 见 过 ， 同 时 还 包 提 








6 这 些 单 






































词 的 变形 ， 比 如 用 数字 表示 某 个 字母 ， 首 字母 大 写 的 随机 字母 组 合 等 。 把 在 垃圾 邮 
件 中 经 常 出 现 的 大 量词 汇 放 在 一 个 列表 中 。 将 出 现 了 这 些 词汇 的 邮件 作为 疑似 垃圾 
邮件 隔离 。 选 做 题 : 设计 一 种 算法 或 加 入 一 些 关 键 字 的 变形 来 找 出 这 些 邮件 。 

e) 钓鱼 。 这 些 垃圾 邮件 总 是 想 把 它们 伪装 成 来 自 大 银行 或 知名 网 站 的 合法 电子 邮 










































































件 。 其 中 包含 某 些 链接 , 引诱 用 户 输 入 自己 私密 的 或 敏感 的 信息 ,如 登录 名 、 密 码 、 

















信用 卡 卡号 等 。 这 些 骗子 往往 做 得 足以 以 假 乱 真 。 不 过 ,他们 还 是 免不了 要 让 用 户 





























登录 到 与 他 们 声称 的 并 不 相符 的 网 站 。 这 里 ， 就 可 能 会 透露 出 很 多 信息 ， 如 看 上 去 




















乱 七 八 粳 的 域名 ， 只 用 了 IP 地 址 , Bk 32 位 整数 形式 而 不 是 字 节 形式 的 IP 地 址 等 。 











编写 一 段 代 码 来 判断 一 封 看 上 去 像 官 方 发 送 的 电子 邮件 的 真 伪 。 
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用 应 用 主题 




















生成 电子 邮件 
下 面 的 这 些 练习 需要 用 到 email 包 来 生成 


3-29 ”多 部 分 可 选 (Multipart Alternative )。 多 部 分 可 选 是 什么 意思 ? 在 前 


3-32 




















有 子 邮 件 ,同时 与 email-examples.py ! 








的 代码 有 关 。 























简要 了 解 了 





make img msgOPAZÉ, 但 该 函数 真正 完成 了 什么 ? 如果 在 实例 化 MIMEMultipart 类 时 


移 除 “alternative”， 即 email = MIMEMultipartQ, WZ 
Python 3。 将 email-examples.py 代码 移植 到 Python 3 : 


Python 2.x 和 3.x 中 运行 的 代码 )。 


























多 个 附件 。3.5.1 节 介绍 了 make_img_msg0) 函 数 ， 它 用 来 创建 


























含有 单 幅 图 





片 。 虽 然 这 是 一 个 





数 接受 多 个 图 
单个 多 部 分 消息 对 象 。 

健壮 性。 改进 练习 3-31 | 
图 
































良好 的 开始 , 但 
者 创建 一 个 名 为 attachImgs()/attach_images() 
片 文 件 作 为 参数 , 将 这 些 文人 





























封 ! 














的 attachImgs()， 确保 
片 则 抛 出 异常 )。 也 就 是 说 ,检查 文件 名 来 确保 


选 做 题 : 支持 文件 内 省 ， 即 可 以 处 理 任 何 文件 ， 








面 了 解 相关 内 容 。 

















健壮 性 、 网 络 。 继 续 改 进 attachImgs0 函 数 ， 除 了 添加 本 地 文件 














使 





J URL 添加 在 线 图 片 ， 如 





























IPB AIS 


























电子 邮件 ， 
无 法 满足 实际 需求 。 这 个 练习 需要 i 
的 函数 〈 读 者 可 以 使 月 
F 作 为 电子 邮件 的 一 个 单独 附件 , 并 返 


HEB MO, 


函数 的 行为 会 有 哪些 变化 ? 
(或 创建 一 个 能 同时 在 

















图 像 文 件 ( 如果 不 是 
扩展 名 是 .png、.jpg、.gif、.tif 等 。 
包括 错误 和 没有 扩 
查 文件 的 真实 类 型 。 提 示 : 访问 http://en.wikipedia.org/wiki/File_format 这 个 维基 页 


展 名 的 文件 ， 检 


























一 个 或 多 个 
Ate 











=F 
使 用 email.mime.base. MIMEBase, 














以 及 用 





bigness 1H 




















xis, .xlsx. 





外 ， 


http://docs.python.org/ static/py.png. 
电子 表格 。 创 建 一 个 名 为 attachSheetsO 的 函数 ， 用 于 向 多 部 分 电子 邮 
EE 子 表格 文件 。 支 持 最 常见 的 格式 ， 如 .csv、 


。 可 以 以 attachImgs0) 为 原型 ， 但 不 能 使 月 


.0dS、 














户 还 可 以 











牛 消息 添加 


.uof/.uos 


H email.mime.image.MIMEImage, ifi] 
定 正确 的 MIME 类 型 (如 
application/vnd.ms-excel 。 同 时 不 要 忘 了 修改 Content-Disposition 标题 。 





文档 。 与 练习 3-34 类 似 ， 创 建 一 个 名 为 attachDocs0 的 新 函数 ， 向 多 部 分 电子 邮件 消 























多 附件 类 型 。 扩 展 练 习 3-35! 
Bl, 该 函数 可 以 接受 任何 类 型 
这 个 函数 中 。 























http://networksorcery.com/enp/topic/ipsuite.htm 这 个 链接 列 吕 























息 添加 文档 附件 。 支 持 常见 的 格式 ， 如 .doc、.docx、.odt、.rtf、.pdf、.txt、.uof/.uot 


E 点 介绍 的 三 个 。 而 http://docspython.org/library/internet 这 个 链接 列 出 了 Python 支持 的 


A 
Co 





支持 的 文件 类 型 。 创 建 一 个 名 为 attachFiles jr ER 
的 附件 。 读 者 可 以 随意 将 前 几 个 练习 中 的 代码 复制 到 





上 了 多 个 因特网 协议 ， 包 括 本 


因 
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特 网 协议 。 
3-37 开发 男 一 个 因特网 客户 端 , 本 章 介 绍 了 4 个 使 用 Python 开发 因特网 客户 端的 示例 ， 


选择 另 一 个 Python 标准 库 模 块 支 持 的 客户 端 协议 ， 编 写 一 个 客户 端 应 用 。 
* 开 发 一 个 新 的 因特网 客户 端 。 这 个 练习 难度 很 大 ,首先 找到 一 个 不 常见 或 者 正在 
开发 且 Python 不 支持 的 协议 。 编 写 代码 让 Python 支持 这 个 协议 。 要 严肃 对 待 ， 因 
为 为 Python 添加 对 新 协议 的 支持 会 作为 PEP 提交 ， 相 关 模 块 代码 会 包含 在 未 来 发 
布 的 Python 标准 库 中 。 










































































3-38 





















































CHAPTER 





第 4 章 多 线程 编程 


> 在 Python 中 ， 你 可 以 启动 一 个 线程 ， 但 却 无 法 停止 它 。 
> 对 不 起 ， 你 必须 要 等 到 它 执行 结 
所 以 ， 就 像 [comp.lang.python] 一 样 ， 然 后 呢 ? 
— Cliff Wells, Steve Holden 
( 4# Timothy Delaney ), 2002 年 2 月 
ARBAB: 
。 简介 /动机 ; 
。 线程 和 进程 ; 
。 线程 和 Python; 
e thread 模块 ; 
e threading 模块 ; 
。 单线 程 和 多 线程 执行 对 比 ; 
。 多 线程 实践 ; 
。 生产 者 -消费 者 问题 和 Queue/queue 模块 ; 
。 线程 的 蔡 代 方案 ; 
。 相关 模块 。 
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FET VR SEI SE BUT MS 
多 线程 编程 的 概念 ， 并 给 出 一 些 Python £ 2x2 
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的 方法 。 开 始 的 几 节 会 讨论 进程 和 线程 的 区 别 。 然 后 





ij 程 的 功能 〈 已 经 熟悉 多 线程 编程 的 读者 

















H 

















可 以 直接 跳 到 4.3.5 节 )。 本 章 最 后 几 节 将 给 出 几 个 使 用 threading 模块 和 Queue 模块 实现 





Python 多 线程 编程 的 例子 。 


4.1 简介 /动机 


在 多 线程 (multithreaded, MT) 编程 出 现 之 前 ， 计 算 机 程序 的 执行 是 由 








单个 步骤 序列 组 

















成 的 ， 该 序列 在 主机 的 CPU 中 按照 同步 顺序 执行 。 无 论 是 任务 本 身 需要 按照 步骤 顺序 执行 ， 
还 是 整个 程序 实际 上 包含 多 个 子 任务 ， 都 需要 按照 这 种 顺序 方式 执行 。 那 么 ， 假 如 这 些 子 任 
务 相 互 独立 ， 没 有 因果 关系 〈 也 就 是 说 ， 各 个 子 任务 的 结果 并 不 影响 其 他 子 任务 的 结果 )， 这 

















种 做 法 是 不 是 不 符合 逻辑 呢 ? 要 是 让 这 些 独 立 的 任务 同时 和 运行， 会 怎么 样 呢 ? 很 明显 ， 这 种 










































































并 行 处 理 方式 可 以 显著 地 提高 整个 任务 的 性 能 。 这 就 是 多 线程 编程 。 





多 线程 编程 对 于 具有 如 下 特点 的 多 
每 个 活动 的 处 理 顺 序 可 
程 任务 可 以 被 组 织 或 大 





个 并 发 活动 ; 




















点 用 的 不 同 ， 








方式 执行 。 而 那 种 使 用 单线 程 处 到 








这 些 子 任务 可 


















































Ob SS ape SL fe 
能 需要 计 


以 比较 容易 























线程 ， 要 实现 这 种 编 
用 方案 。 




















一 个 串 行 程序 需要 从 每 个 VO. 终端 通道 来 检查 用 户 的 输入 ; 然而 ， 有 一 点 非常 重要 ， 程 
序 在 读 取 VO 终端 通道 时 不 能 阻塞 ， 因 为 用 户 输 入 的 到 达 时 间 是 不 确定 的 ， 并 且 阻 塞 会 妨碍 
其 他 IO 通道 的 处 理 。 串 行程 序 必 须 使 用 非 阻塞 IO 或 拥有 计时 器 的 阻塞 JO 以 保证 阻塞 只 















































是 暂时 的 )。 


由 于 串 行程 序 只 有 唯一 的 执行 线程 ， 因 
某 个 任务 不 会 占用 过 多 时 间 ， 并 对 
序 的 使 用 ， 往 往 造 成 非常 复杂 的 控制 流 ， 难 以 理解 和 维护 。 
使 用 多 线程 编程 ， 以 及 类 似 Queue 的 共享 数据 结构 《本章 后 面 会 讨论 的 一 种 多 线程 队列 
i 程 任务 可 以 规划 成 几 个 执行 特定 函数 的 线程 。 
e UserRequestThread: 负责 读 取 客 户 端 输入 ， 该 输入 可 能 3 
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et 










































































(REEDS TM Se ETE EA: 本质 上 是 异步 的 ， 需 要 














EE 是 不 确定 的 ， 或 者 说 是 随机 的 、 不 可 预测 的 。 这 种 编 
I 分 成 多 个 执行 流 ， 其 中 每 个 执行 流 都 有 一 个 指定 要 完成 的 任务 。 根 据 
出 中 间 结 果 ， 然 后 合并 为 最 终 的 输出 结果 。 

也 划分 成 多 个 子 任务 ， 然 后 按 顺 序 执行 或 按照 多 线程 
多 个 外 部 输入 源 的 任务 就 不 那么 简单 了 。 如 果 不 使 用 多 
E 务 就 需要 为 串 行 程序 使 用 一 个 或 多 个 计时 器 ， 并 实现 一 个 多 路 复 


此 它 必须 兼顾 需要 执行 的 多 个 任务 ， 





























































































































确保 其 中 的 







































































多 个 线程 ， 





e ”RequestProcessor: 该 线程 负责 从 队列 中 获取 请 求 并 
e ReplyThread: 负责 向 


每 个 客户 端 

















j 户 输出 ， 将 结果 传 回 





j 户 的 响应 时 间 进 行 合理 的 分 配 。 





这 种 任务 类 型 的 串 行程 
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H IO 通道 。 








程序 将 创建 























个 ， 客 户 端的 请 求 将 会 被 放 入 队列 中 。 























据 写 到 本 地 文件 系统 或 数据 库 中 。 


























行 处 理 ， 为 第 3 个 线程 提供 输出 。 
给 用 户 “ 如 果 是 网 络 应 用 )， 或 者 把 数 
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T I OER 
简洁 。 每 个 线程 ， 
UserRequestThread 





程 后 续 处 理 。 








dl 


些许 相似 。 























见 划 这 种 编程 任务 可 以 降低 程 

















序 的 复杂 性 ， 使 其 实现 更 加 清晰 、 高 效 、 



































的 逻辑 都 不 复杂 ， 因 为 它 











每 个 线程 都 有 其 明确 的 作业 ， 你 只 


了 情 做 好 就 可 以 了 。 这 种 特定 任务 线程 的 使 / 


























只 有 一 个 要 完成 的 特定 作业 。 比 如 ， 

















的 功能 仅仅 是 读 取 用 户 输入 ， 然 后 把 输入 数据 放 到 队列 里 ， 以 供 其 他 线 


需要 设计 每 类 线程 去 做 一 件 事 ， 并 把 这 件 





























j 与 享 利 。 福 特 生 产 汽车 的 流水 线 模 型 有 





4.2 ”线程 和 进程 


42.1 进程 

















计算 机 程序 只 是 存储 在 磁盘 上 的 可 执行 二 进 和 
内 存 中 并 被 操作 系统 调用 ， 才 拥有 其 生命 期 。 进 程 (有 时 称 为 重量 级 进程 》 则 是 一 个 执行 ! 














的 程序 。 每 个 ; 








程 都 





















































操作 系统 管理 其 
Cfork 或 spaw 























栈 等 ， 所 以 








4.2.2 ”线程 
线程 (有 时候 称 为 轻 量 级 进程 ) 与 进程 类 似 ， 不 过 它们 是 在 同一 个 进程 下 执行 的 ， 并 





上 所 有 进程 的 执行 ， 并 为 这 些 进 
n) 新 的 进程 来 执行 其 他 任务 ， 不 过 因为 每 个 新 进程 也 都 拥有 自己 的 内 存 和 数据 
4 能 采用 进程 间 通 信 CPC) 的 方式 共享 信息 。 














| (或 其 他 类 型 ) 文件。 只 有 把 它们 加 载 到 


























有 自己 的 地 址 空间 、 内 存 、 数 据 栈 以 及 其 他 用 于 跟踪 执行 的 辅助 数据 。 







































































你 进程 ”。 






































程 合 理 地 分 配 时 间 。 进 程 也 可 以 通过 派生 















































# 享 相同 的 上 下 文 。 可 以 将 它们 认为 是 在 一 个 主 进程 或 “主线 程 ” 中 并 行 运 行 的 一 些 “ 迷 









































开始 、 执 行 顺序 和 结束 三 部 分 。 它 有 一 个 指令 指针 ， 用 于 记录 当前 运行 的 上 下 








文 。 当 其 他 线程 运行 时 ， 它 可 以 被 抢占 中断) 和 临时 挂 起 (也 称 为 睡眠 ) 一 一 这 种 做 法 叫 
做 让 步 (yielding )。 











个 进程 中 的 各 个 线程 与 主线 程 共享 同一 片 数据 空间 ， 因 此 相 比 于 独立 的 进程 而 言 ， 线 





















































程 间 的 信息 共享 和 通信 更 加 容易 。 线 程 一般 是 以 并 发 方式 执行 的 ， 正 是 由 于 这 种 并 行 和 数据 


























* 享 机 制 ， 使 


可 能 的 ， 所 以 线程 的 执行 























程 《 再 次 排队 等 待 更 








的 任务 ， 在 必要 时 和 其 他 线程 进行 结果 通信 。 
当然 ， 这 种 共享 并 不 是 没 











得 多 任务 间 的 协作 成 为 可 能 。 当 然 ， 


























在 单 核 CPU 系统 中 ， 因 为 真正 的 并 发 是 不 



































实际 上 是 这 样 规划 的 : 每 个 线程 运行 一 小 会 儿 ， 然 后 让 步 给 其 他 线 








多 的 CPU 时 间 )。 在 整个 进程 的 执行 过 程 中 ， 每 个 线程 执行 它 自己 特定 




































































风险 的 。 如 果 两 个 或 多 个 线程 访问 同一 片 数据 ， 由 于 数据 访 





问 顺 序 不 同 ， 可 能 导致 结果 不 一 致 。 这 种 情况 通常 称 为 竞 态 条 件 (race condition )。 幸 运 的 是 ， 




















大 多 数 线程 库 都 有 











些 同 步 原 语 ， 以 允许 线程 管理 











器 控制 执行 和 访问 。 
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男 一 个 需要 注意 的 问题 是 ， 线 程 无 法 给 予 公平 的 执行 时 间 。 这 是 因为 一 些 函数 会 在 完成 
前 保持 阻塞 状态 , 如 果 没 有 专门 为 多 线程 情况 进行 修改 , 会 导致 CPU 的 时 间 分 配 向 这 些 贪 楚 
的 函数 倾斜 。 

















4.3 线程 和 Python 
































线程 , 其 中 包括 全 局 解释 器 锁 对 线程 的 限制 和 一 个 快 


mE 
H 
HT 














本 节 将 讨论 在 如 何在 Python 中 使 
速 的 演示 脚本 。 
4.3.1 全 局 解释 器 锁 

Python 代码 的 执行 是 由 Python 虚拟 机 (又 名 解释 器 主 循环 ) 进行 控制 的 。Python 在 
设计 时 是 这 样 考虑 的 ， 在 主 循环 中 同时 只 能 有 一 个 控制 线程 在 执行 ， 就 像 单 核 CPU 系统 
中 的 多 进程 一 样 。 内 存 中 可 以 有 许多 程序 ， 但 是 在 任意 给 定时 刻 只 能 有 一 个 程序 在 运行 。 
同 理 ， 尽 管 Python 解释 器 中 可 以 运行 多 个 线程 ， 但 是 在 任意 给 定时 刻 只 有 一 个 线程 会 被 
解释 器 执行 。 
对 Python 虚拟 机 的 访问 是 由 全 局 解释 器 锁 〈GIL) 控制 的 。 这 个 锁 就 是 用 来 保证 同时 只 
能 有 一 个 线程 运行 的 。 在 多 线程 环境 中 ，Python 虚拟 机 将 按照 下 面 所 述 的 方式 执行 。 

1. 设置 GIL。 

2. 切换 进 一 个 线程 去 运行 。 

3. 执行 下 面 操作 之 一 。 

a. 指定 数量 的 字 节 码 指令 。 
b. 线程 主动 让 出 控制 权 〈 可 以 调用 time.sleep(0) 来 完成 )。 

4. 把 线程 设置 回 睡眠 状态 (切换 出 线程 )。 

5. 解锁 GIL. 

6. 重复 上 述 步骤 。 
当 调 用 外 部 代码 ( 即 ， 任 意 C/C++ 扩展 的 内 置 函 数 ) 时 ，GIL 会 保持 锁定 ， 直 至 函数 执 
行 结束 (因为 在 这 期 间 没 有 Python 字 节 码 计数 )。 编 号 扩展 函数 的 程序 员 有 能 力 解锁 GIL, 
然而 ， 作 为 Python 开发 者 ， 你 并 不 需要 担心 Python 代码 会 在 这 些 情况 下 被 锁 住 。 

例如 ， 对 于 任意 面向 IO 的 Python 例 程 (调用 了 内 置 的 操作 系统 C 代码 的 那 种 )， 
GIL 会 在 VO 调用 前 被 释放 ， 以 允许 其 他 线程 在 IO 执行 的 时 候 运 行 。 而 对 于 那些 没有 太 
多 VO 操作 的 代码 而 言 ， 更 倾向 于 在 该 线程 整个 时 间 片 内 始终 占有 处 理 器 〈 和 GIL). f 
句 话说 就 是 ，LIO 密集 型 的 Python 程序 要 比 计 算 密集 型 的 代码 能 够 更 好 地 利用 多 线程 
环境 。 

如 果 你 对 源 代 码 、 解 释 器 主 循 环 和 GIL 感 兴趣 ， 可 以 看 看 Python/cevalc 文件 。 
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应 














4.3.2. ”退出 线程 


当 一 个 线程 完成 函数 的 执行 时 ， 它 就 
类 的 退出 函数 ， 或 者 sys.exit0 之 类 的 退出 
不 过 ， 你 不 能 直接 “终止 ”一 个 线程 。 











异常 ， 来 使 线程 退出 。 




















ROWS TEA 
thread 模块 。 给 出 
其 他 线程 都 会 在 没有 清 
子 线程 i 
提示 : 

而 主线 程 应 该 
































每 个 线程 的 结果 ， 





SJ 
BERT, RRRA 
“避免 使 用 thread 





然后 汇总 成 

















+ 











因 ， 



































模块 )。 





改 一 个 好 的 管理 
线程 需要 哪些 数据 或 参数 ， 这 些 线程 执行 完成 后 会 提供 


的 情况 下 直接 退出 。 
程 的 存活 《对 于 








La, Hit 














会 退出 。 AY , 还 可 以 
Python 进程 




















讨论 两 个 与 线程 相关 的 Python 模块 ,不 过 在 这 两 个 模块 中 ,不 建议 使 用 
这 个 建议 有 很 多 原 


中 最 明显 的 一 个 原因 是 


的 标准 方法 ， 亦 或 者 抛 出 

















通过 调用 诸如 thread.exit(O 之 
SystemExit 

















而 另 一 个 模块 threa 


“Æ ae ” 
PAR 
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4.3.3 在 Python 中 使 用 线程 


Python 虽然 支持 多 线程 编程 ， 


支持 多 线程 的 : 


IZ ZS 








Windows 了 

















o Python 使 


意义 的 最 终结 果 。 
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线程 支持 是 
入 thread 模 


1 ZA 














己 经 启用 的 。 要 确定 你 的 解 采 
块 即 可 ， 如 下 所 示 〔《 如 果 线 程 是 可 


>>> import thread 


>>> 


如 果 


Traceback 


PREY) Python 解释 器 


File "<stdin>", 








>>> import thread 





这 种 情况 下 ， 你 上 


configure 
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脚本 的 时 候 使 











可 能 需要 重 




















line 1, 


但 是 还 需要 取决 了 
绝 大 多 数 类 UNIX 平台 (如 Linux, Solaris, 
兼容 POSIX 的 线程 ， 也 就 是 众所周知 的 pthread. 
默认 情况 下 ， 从 源码 构建 的 Python (2.0 及 以 上 版 本 ) 或 者 Win32 二 进 种 


HE Ei 
释 器 是 否 














文 持 线程 ， 只 需 

















8 没有 将 线程 支持 


(innermost last): 


in ? 


]--with-thread 选项 。 











的 ， 




















mportError: No module named thread 


新 编译 你 的 Python 解释 器 才能 够 使 
人 














获取 如 何在 你 的 系统 中 编译 线程 支持 的 Python 的 指定 指令 
4.3.4 不 使 用 线程 的 情况 











在 第 一 个 例子 














， 我 们 将 使 月 


日 time.sleepO 函 数 来 演示 线程 是 





它 所 运行 的 操作 系统 。 如 下 操作 系统 是 
Mac OS X. 


是 在 主线 程 退出 之 后 ， 所 有 
ding 会 确保 在 所 有 “重要 的 ” 






































这 个 含义 的 说 明 ， 请 阅读 下 面 的 核心 


解 每 个 单独 的 线程 需要 执行 什么 ， 每 个 派生 的 
什么 结果 。 这 样 ， 





主线 程 就 可 以 收集 

















EI 


*BSD 55), UK 

















1 安装 的 Python, 
需要 从 交互 式 解 释 器 中 尝试 导 








则 不 会 产生 错误 )。 


i 译 进 去 ， 模 块 导入 将 会 失败 。 




















线程 。 一 般 可 以 在 调用 














如 何 工 作 的 。time.sleep0 函 
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数 需 要 一 个 浮 点 型 的 参数 ， 然 后 以 这 个 给 定 的 秒 数 进行 “睡眠 ” 也 就 是 说 ， 程 序 的 执行 会 暂 
时 停止 指定 的 时 间 。 

创建 两 个 时 间 循 环 : 一 个 睡眠 4 秒 (loop00); 另 一 个 睡眠 2 秒 (loop10)( 这 里 使 用 “loop0” 
和 “jloop1” 作 为 函数 名 ， 上 暗示 我 们 最 终 会 有 一 个 循环 序列 )。 如 果 在 一 个 单 进程 或 单线 程 的 
程序 中 顺序 执行 lo0op00 和 loop10, 就 会 像 示例 4-1 中 的 onethr.py 一 样 , 整个 执行 时 间 至 少 会 
达到 6 秒 钟 。 而 在 启动 lbop00 和 loop10 以 及 执行 其 他 代码 时 ， 也 有 可 能 存在 1 秒 的 开销 ,使 
得 整个 时 间 达 到 7 b 





































































































示例 4-1 使 用 单线 程 执 行 循环 Conethr.py) 


该 脚本 在 一 个 单线 程 程序 里 连续 执行 两 个 循环 。 一 个 循环 必须 在 另 一 个 开始 前 完成 。 总 共 消 耗 的 时 间 是 每 个 循环 所 
时 间 之 和 。 
#!/usr/bin/env python 










































































1 

2 

3 from time import sleep, ctime 

4 

5 def loop0(): 

6 print ‘start loop 0 at:', ctime() 
7 sleep(4) 

8 print 'loop 0 done at:', ctime() 
9 

10 def loop1Q: 

11 print 'start loop 1 at:', ctime() 
12 sleep(2) 

13 print 'loop 1 done at:', ctime() 
14 

15 def mainO: 

16 print 'starting at:', ctime() 

17 loop0 

18 loop1Q 

19 print 'all DONE at:', ctime() 

20 

21 if name == ' main ': 

22 main() 





可 以 通过 执行 onethrpy 来 验证 这 一 点 ， 下 面 是 输出 结果 。 


$ onethr.py 

Starting at: Sun Aug 13 05:03:34 2006 
Start loop 0 at: Sun Aug 13 05:03:34 2006 
loop 0 done at: Sun Aug 13 05:03:38 2006 
start loop 1 at: Sun Aug 13 05:03:38 2006 
loop 1 done at: Sun Aug 13 05:03:40 2006 
all DONE at: Sun Aug 13 05:03:40 2006 


现在 ,假设 loop00 和 loop10 中 的 操作 不 是 睡眠 ， 而 是 执行 独立 计算 操作 的 函数 ， 所 有 结 
果 汇 总 成 一 个 最 终结 果 。 那 么 ， 让 它们 并 行 执行 来 减少 总 的 执行 时 间 是 不 是 有 用 的 呢 ? 这 就 
是 现在 要 介绍 的 多 线程 编程 的 前 提 。 
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4.3.5 Python 的 threading 模块 


Python 提供 了 多 个 模块 来 支持 多 线程 编程 ， 包 括 thread, threading 和 Queue 模块 等 。 程 
序 是 可 以 使 用 thread 和 threading 模块 来 创建 与 管理 线程 。thread 模块 提供 了 基本 的 线程 和 锁 
定 文 持 ;， 而 threading 模块 提供 了 更 高 级 别 、 功 能 更 全 面 的 线程 管理 。 使 用 Queue 模块 ， 用 户 
可 以 创建 一 个 队列 数据 结构 ， 用 于 在 多 线程 之 间 进 行 共享 。 我 们 将 分 别 来 查看 这 几 个 模块 ， 
并 给 出 几 个 例子 和 中 等 规模 的 应 用 。 





































































































































































































核心 提示 : 避免 使 用 thread 模块 

推荐 使 用 更 高 级 别 的 threading 模块 ， 而 不 使 用 thread 模块 有 很 多 原因 。threading 模 
块 更 加 先进 ,有 更 好 的 线程 支持 , 并且 thread 模块 中 的 一 些 属性 会 和 threading 模块 有 冲突 。 
另 一 个 原因 是 低级 别 的 thread 模块 拥有 的 同步 原 语 很 少 (实际 上 只 有 一 个 )， 而 threading 
模块 则 有 很 多 。 

不 过 ， 出 于 对 Python 和 线程 学 习 的 兴趣 ， 我 们 将 给 出 使 用 thread 模块 的 一 些 代 码 。 
给 出 这 些 代码 只 是 出 于 学 习 目 的 ， 硕 望 它 能 够 让 你 更 好 地 领悟 为 什么 应 该 避免 使 用 
thread 模块 。 我 们 还 将 展示 如 何 使 用 更 加 合适 的 工具 ， 如 threading 和 Queue 模块 中 的 那 
些 方 法 。 

避免 使 用 thread 模块 的 另 一 个 原因 是 它 对 于 进程 何 时 退出 没有 控制 。 当 主线 程 结束 
时 ， 所 有 其 他 线程 也 都 强制 结束 ， 不 会 发 出 警告 或 者 进行 适当 的 清理 。 如 前 所 述 ， 至 少 
threading 模块 能 确保 重要 的 子 线程 在 进程 退出 前 结束 。 

我 们 只 建议 那些 想 访 问 线程 的 更 底层 级 别 的 专家 使 用 thread 模块 。 为 了 强调 这 一 点 ， 
在 Python3 中 该 模块 被 重 命名 为 thread. 你 创建 的 任何 多 线程 应 用 都 应 该 使 用 threading 模 
块 或 其 他 更 高 级 别 的 模块 。 


4.4 thread 模块 




















让 我 们 先 来 看 看 thread 模块 提供 了 什么 。 除 了 派生 线程 外 ，thread 模块 还 提供 了 基本 的 
同步 数据 结构 ， 称 为 锁 对 象 〈lock object， 也 叫 原 语 锁 、 简 单 锁 、 互 斥 锁 、 互 斥 和 二 进 制 信和 号 
量 )。 如 前 所 述 ， 这 个 同步 原 语 和 线程 管理 是 密切 相关 的 。 

表 4-1 列 出 了 一 些 常用 的 线程 函数 ， 以 及 LockType 锁 对 象 的 方法 。 

thread 模块 的 核心 函数 是 start_new_thread()。 它 的 参数 包括 函数 (对 象 )、 函 数 的 参数 以 
及 可 选 的 关键 字 参 数 。 将 专门 派生 新 的 线程 来 调用 这 个 函数 。 

把 多 线程 整合 进 onethrpy 这 个 例子 中 。 把 对 loop*O 函 数 的 调用 稍微 改变 一 下 ， 得 到 示例 
4-2 中 的 mtsleepA.py 文件 。 











































































































表 4-1 thread 模块 和 锁 对 象 
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函数 /方法 Jj X 
thread 模块 的 函数 
start, new. thread (function, args, kwargs- None) 派生 一 个 新 的 线程 ， 使 用 给 定 的 args 和 可 选 的 kwargs 来 执行 function 
allocate_lock() 4j He LockType 锁 对 象 
exit() 给 线程 退出 指令 
LockType 锁 对 象 的 方法 
acquire (wait=None) 尝试 获取 锁 对 象 
locked () 如 果 获 取 了 锁 对 象 则 返回 Tue， 否则 ， 返 回 False 
release () 释放 锁 





示例 4-2 使 用 thread 模块 (mtsleepA.py) 





























这 里 执行 的 循环 和 onethr .py 是 一 样 的 ， 不 过 这 次 使 用 了 thread 模块 提供 的 简 和 






































#!/usr/bin/env python 


l 

2 

3 ‘import thread 

4 from time import sleep, ctime 
5 


6 def loop0(): 





7 print 'start loop O at:', ctime() 
8 sleep(4) 

9 print 'loop 0 done at:', ctime() 
10 

l1 def loop1Q: 

12 print 'start loop 1 at:', ctime() 
13 sleep(2) 

14 print 'loop 1 done at:', ctime() 
15 

16 def mainO: 

17 print 'starting at:', ctime() 

18 thread.start new thread(loop0O, ()) 
19 thread.start new thread(loopl, ()) 
20 sleep(6) 

21 print 'all DONE at:', ctime() 

22 

23 if name == ' main ': 

24 main() 








start_new_thread() 必 须 包 含 开 始 的 两 个 参数 ， 于 是 即使 要 执行 的 
要 传递 一 个 空 元 组 。 











Ws 














多 线程 机 制 。 两 个 循环 是 并 发 执 


行 的 《很 明显 ， 短 的 那个 先 结束 )， 因 此 总 的 运行 时 间 只 与 最 慢 的 那个 线程 相关 ， 而 不 是 每 个 线程 运行 时 间 之 和 。 





与 之 前 的 代码 相 比 ,本 程序 执行 后 的 输出 结果 有 很 大 不 同 。 原 来 需要 运行 6 一 7 秒 的 时 间 ， 








而 现在 的 脚本 只 需要 运行 4 秒 ， 也 就 是 最 长 的 循环 加 上 其 他 所 有 开销 











的 时 间 之 和 。 
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民 4 PLAI 























$ mtsleepA.py 

Starting at: Sun Aug 13 05:04:50 2006 
start loop 0 at: Sun Aug 13 05:04:50 2006 
start loop 1 at: Sun Aug 13 05:04:50 2006 
loop 1 done at: Sun Aug 13 05:04:52 2006 
loop 0 done at: Sun Aug 13 05:04:54 2006 
all DONE at: Sun Aug 13 05:04:56 2006 


























i EIR 2 秒 的 代码 片段 是 并 发 执行 的 ， 这 样 有 助 于 减少 整体 的 运行 时 间 。 你 其 
至 可 以 看 到 loop 1 是 如 何在 loop 0 之 前 结束 的 。 















































个 应 用 程序 中 剩 下 的 一 个 主要 区 别 是 增加 了 一 个 sleep(6) 调 用 

















。 为 什么 必须 要 这 样 做 


这 
Me? 这 是 因为 如 果 我 们 没有 阻止 主线 程 继续 执行 ， 它 将 会 继续 执行 下 一 条 语句 ， 显 示 “all 


done” 然 后 退出 ， 而 loop00 和 loop10 这 两 个 线程 将 直接 终止 。 





我 1 


门 没有 写 让 主线 程 等 待 子 线程 全 部 完成 后 上 











































































































下 继续 的 代码 ， 即 我 们 所 说 的 线程 需要 某 种 





形式 的 同步 。 在 这 个 例子 中 ， 调 用 sleep0 来 作为 同步 机 制 。 将 其 值 设 定 为 6 秒 是 因为 我 们 知 


道 所 有 线程 ( 























JI] 4 秒 和 2 秒 的 ) 会 在 主线 程 计 时 到 6 秒 之 前 完成 。 


LM 









































你 可 能 会 想到 ， 肯 定 会 有 比 在 主线 程 中 额外 延 时 6 秒 更 好 的 线程 管理 方式 。 由 于 这 个 延 


时 ， 整 个 程序 的 运行 时 间 并 没有 比 单 线程 的 版 本 更 快 。 像 这 样 使 用 sleep0 来 进行 线程 同步 是 





























不 可 靠 的 。 如 果 循 环 有 独立 且 不 同 的 执行 时 间 要 怎么 办 呢 ? 我 们 可 能 会 过 早 或 过 晚 退出 主线 


程 。 这 就 是 引出 锁 的 原因 。 
再 一 次 修改 代码 ， 引 入 锁 ， 并 去 除 单独 的 循环 函数 ， 修 改 后 的 代码 为 mtsleepB.py， 如 示 


















































例 4-3 所 示 。 我 们 可 以 看 到 输出 结果 与 mtsleepA.py 相似 。 唯 一 的 区 别 是 我 们 不 需要 再 像 
mtsleepA.py 那样 等 待 额外 的 时 间 后 才能 结束 。 通 过 使 用 锁 ， 我 们 可 以 在 所 有 线程 全 部 完成 执 
行 后 立即 退出 。 其 输出 结果 如 下 所 示 。 



































$ mtsleepB.py 

starting at: Sun Aug 13 16:34:41 2006 
start loop 0 at: Sun Aug 13 16:34:41 2006 
start loop 1 at: Sun Aug 13 16:34:41 2006 
loop 1 done at: Sun Aug 13 16:34:43 2006 
loop 0 done at: Sun Aug 13 16:34:45 2006 
all DONE at: Sun Aug 13 16:34:45 2006 




















那么 我 们 是 如 何 使 用 锁 来 完成 任务 的 呢 ? 下 面 详细 分 析 源 代码 。 














示例 4-3 ”使 用 线程 和 锁 (mtsleepB.py) 


与 mtsleepA.py 中 调用 sleep () 来 挂 起 主线 程 不 同 ， 锁 的 使 用 将 更 加 合理 。 
1 #!/usr/bin/env python 
2 
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3 import thread 
4 from time import sleep, ctime 
5 
6 loops = [4,2] 
1 
8 def loop(nloop, nsec, lock): 
9 print 'start loop', nloop, 'at:', ctime() 
10 sleep(nsec) 
11 print 'loop', nloop, 'done at:', ctime() 
12 lock.release() 
13 
14 def main(): 
15 print 'starting at:', ctime() 
16 locks = [] 
17 nloops = range(len(loops)) 
18 
19 for i in nloops: 
20 lock = thread.allocate_lock() 
21 lock.acquire() 
22 locks. append(lock) 
23 
24 for i in nloops: 
25 thread.start new thread(loop, 
26 (i, loops[i], locks[i])) 
27 
28 for i in nloops: 
29 while locks[i].locked(): pass 
30 
31 print ‘all DONE at:', ctime() 
32 
33 if name == ' main ': 
34 main() 
逐 行 解释 
第 1 一 6 行 











在 UNIX 启动 行 后 ， 导 入 了 time 模块 的 几 个 熟悉 属性 以 及 thread 模块 。 我 们 不 再 把 4 
秒 和 2 秒 硬 编码 到 不 同 的 函数 中 ， 而 是 使 用 了 唯一 的 loop0 函 数 ， 并 把 这 些 常量 放 进 列表 
loops 中 。 

第 8~12 47 

loopQ PAAR SZ ATIF BAY loop*O ER c « ALLE, 我 们 必须 在 loop0 函 数 中 做 一 些 修 改 ， 
以 便 它 能 使 用 锁 来 完成 自己 的 任务 .其 中 最 明显 的 变化 是 我 们 需要 知道 现在 处 于 哪个 循环 中 ， 
以 及 需要 睡眠 多 入。 最 后 一 个 新 的 内 容 是 锁 本 身 。 每 个 线程 将 被 分 配 一 个 已 获得 的 锁 。 当 sleep(O) 
的 时 间 到 了 的 时 候 ， 释 放 对 应 的 锁 ， 向 主线 程 表 明 该 线程 已 完成 。 

第 14 一 34 行 

大 部 分 工作 是 在 main0 中 完成 的 ， 这 里 使 用 了 3 个 独立 的 for 循环 。 首 先 创建 一 个 锁 的 
列表 , 通过 使 用 thread.allocate_lock() PK 3 8148/08] A, 然后 通过 acquire() 方 法 取得 (每 个 锁 )。 
取得 锁 效果 相当 于 “把 锁 锁 上 ”。 一 旦 锁 被 锁 上 后 ， 就 可 以 把 它 添加 到 锁 列表 locks 中 。 下 一 
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个 循环 
程 的 锁 这 几 个 参数 。 忆 











EH 
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] 于 派生 线程 ， 每 个 线程 会 1 
IA TA SU 
我 们 想 要 同步 线程 ， 以 便 “ 所 有 的 马 同时 冲 出 
































线程 执行 得 太 快 ， 有 可 能 出 现 获 取 锁 之 
在 每 个 线程 执行 完成 时 ， 它 会 释放 
停 主线 程 )， 直 到 所 有 锁 都 被 释放 之 后 才 会 继续 执行 。 



































前 线程 就 执行 结束 的 情况 。 
































HH] loop0 函 数 ， 并 传递 循环 号 、 旧 
不 在 上 锁 的 循环 中 启动 线程 呢 ? 这 有 两 个 原因 : l 
围栏 ” 其 二 ， 获 取 锁 需要 花费 一 点 时 间 。 如 果 




















眼 时 间 以 及 用 于 该 线 


























自己 的 锁 对 象 。 最 后 一 个 循环 只 是 坐 在 那里 等 待 〈 暂 
因为 我 们 按照 顺序 检查 每 个 锁 ， 








所 有 可 














能 会 被 排 在 循环 列表 前 面 但 是 执行 较 慢 的 循环 所 拖累 。 这 种 情况 








Ne 


用 的 循环 。 








Hil 















































知道 只 有 当 我 人 
正如 在 前 
程序 应 当 使 ) 


] 直 接 调 



























































4.5 threading 模块 






































掉 的 核心 笔记 中 所 提示 的 ， 这 号 

















下 ， 大 部 分 时 间 是 在 等 
当 这 种 线程 的 锁 被 释放 时 ， 剩 下 的 锁 可 能 早已 被 释放 〈 也 就 是 说 ， 对 应 的 线程 
已 经 执行 完毕 )。 结 果 就 是 主线 程 会 飞快 地 、 没 有 停顿 地 完成 对 剩 下 锁 的 检查 。 最 后 ， 你 应 该 
这 个 脚本 时 ， 最 后 几 行 语句 才 会 执行 main0 函 数 。 

使 用 thread 模块 只 是 为 了 介绍 多 线程 编程 。 多 线 
] 更 高 级 别 的 模块 ， 比 如 下 一 节 将 要 讨论 到 的 threading 模块 。 











4 十 Ed, 
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现在 介绍 更 高 级 别 的 threading 模块 。 除 了 Thread 类 以 外 ， 该 模块 还 包括 许多 非常 好 用 
的 同步 机 制 。 表 4-2 给 出 了 threading 模块 中 所 有 可 用 对 象 的 列表 。 
表 4-2 threading 模块 的 对 象 
对 象 fi 述 
Thread 表示 一 个 执行 线程 的 对 象 
Lock 锁 原 语 对 象 CRI thread 模块 中 的 锁 一 样 ) 
RLock 可 重 入 锁 对 象 ， 使 单一 线程 可 以 (再 次 ) 获得 已 持 有 的 锁 〈 递 归 锁 ) 
Condition 条 件 变量 对 象 ， 使 得 一 个 线程 等 待 另 一 个 线程 满足 特定 的 “条 件 ” 比如 改变 状态 或 
某 个 数据 值 
Event 条 件 变 量 的 通用 版 本 ， 任 意 数量 的 线程 等 待 某 个 事件 的 发 生 ， 在 该 事件 发 生 后 所 有 
线程 将 被 激活 
Semaphore 为 线程 间 共 享 的 有 限 资 源 提 供 了 一 个 “计数 器 ” 如 果 没 有 可 用 资源 时 会 被 阻塞 
BoundedSemaphore 与 Semaphore 相似 ， 不 过 它 不 允许 超过 初始 值 
Timer 与 Thread 相似 ， 不 过 它 要 在 运行 前 等 待 一 段 时 间 
Barrier” 创建 一 个 “障碍 ” 必须 达到 指定 数量 的 线程 后 才 可 以 继续 
(D Python 32 版 本 中 引入 。 
本 节 将 研究 如 何 使 用 Thread 类 来 实现 多 线程 。 由 于 之 前 已 经 介绍 过 锁 的 基本 概念 ， 因 此 
这 里 不 会 再 对 锁 原 语 进行 介绍 。 因 为 Thread0 类 同样 包含 某 种 同步 机 制 ， 所 以 锁 原 语 的 显 式 


























使 





j 不 再 是 必需 的 了 。 
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核心 提示 : 守护 线程 


避免 使 用 thread 模块 的 另 一 个 原因 是 该 模块 不 支持 守护 线程 这 个 概念 。 当 主线 程 退 出 
时 ， 所 有 子 线程 都 将 终止 ， 不 管 它 们 是 否 仍 在 工作 。 如 果 你 不 希望 发 生 这 种 行为 ， 就 要 引 
入 守护 线程 的 概念 了 。 

threading 模块 支持 守护 线程 ， 其 工作 方式 是 : 守护 线程 一 般 是 一 个 等 待 客户 端 请 
求 服务 的 服务 器 。 如 果 没 有 客户 端 请 求 ， 守 护 线程 就 是 空闲 的 。 如 果 把 一 个 线程 设置 
为 守护 线程 ， 就 表示 这 个 线程 是 不 重要 的 ， 进 程 退 出 时 不 需要 等 待 这 个 线程 执行 完成 。 
如 同 在 第 2 章 中 看 到 的 那样 ， 服 务 器 线程 远 行 在 一 个 无 限 循环 里 ， 并 且 在 正常 情况 下 
不 会 退出 。 

如 果 主 线程 准备 退出 时 , 不 需要 等 待 菜 些 子 线程 完成 , 就 可 以 为 这 些 子 线 程 设置 守 护 
线程 标记 。 该 标记 值 为 真 时 ， 表 示 该 线程 是 不 重要 的 ， 或 者 说 该 线程 只 是 用 来 等 待 客户 端 
请 求 而 不 做 任何 其 他 事情 。 

要 将 一 个 线程 设置 为 守护 线程 ， 需要 在 启动 线程 之 前 执行 如 下 赋值 语句 : 
thread.daemon = True (调用 thread.setDaemon(True) 的 旧 方 法 已 经 弃 用 了 ). 同样 ， 要 检 
查 线程 的 守护 状态 ， 也 只 需要 检查 这 个 值 即 可 (对比 过 去 调用 thread.isDaemon() 的 方 
法 )。 一 个 新 的 子 线程 会 继承 父 线程 的 守护 标记 。 整 个 Python 程序 ( 可 以 解读 为 : 主线 
程 ) 将 在 所 有 非 守护 线程 退出 之 后 才 退 出 ， 换 名 话说， 就 是 没有 剩 下 存活 的 非 守护 线 
程 时 。 


4.5.1 Thread 类 


threading 模块 的 Thread 类 是 主要 的 执行 对 象 。 它 有 thread 模块 中 没有 的 很 多 函数 。 
表 4-3 给 出 了 它 的 属性 和 方法 列表 。 


表 4-3 Thread 对 象 的 属性 和 方法 






















































































E 性 描 xh 

Thread 对 象 数 据 属性 

Anis 线程 名 

ident 线程 的 标识 符 

daemon 布尔 标志 ， 表 示 这 个 线程 是 否 是 守护 线程 

Thread 对 象 方法 

_init_(group=None, tatger=None, name=None, args=(), | 实例 化 一 个 线程 对 象 ， 需 要 有 一 个 可 调用 的 target， 以 及 其 参数 args 

kwargs ={}, verbose=None, daemon=None) = 或 kwargs。 还 可 以 传递 name 或 group S 数 ， 不 过 后 者 还 未 实现 。 此 
Ah, verbose 标志 也 是 可 接受 的 。 而 daemon 的 值 将 会 设 定 
thread.daemon 属性 /标志 
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CHER) 
m 人 以 描 述 
start() 始 执行 该 线程 
Puno 定义 线程 功能 的 方法 〈 通 常 在 子 类 中 被 应 用 开发 者 重 写 ) 
join (timeout-None) 直至 家 动 的 线程 终止 之 前 一 直 挂 起 ; 除非 给 出 了 timeout (FD), 否则 
— fir 3k 
getName)? 返回 线程 名 
setName (name) D 设 定 线程 名 
isAlivel /is_alive Q^ 布尔 标志 ， 表 示 这 个 线程 是 否 还 存活 
isDaemon()^ 如 果 是 守护 线程 ， 则 返回 True; 和 否则， 返回 False 
setDaemon(daemonic)” 把 线程 的 守护 标志 设 定 为 布尔 值 daemonic〈 必 须 在 线程 start0) 之 前 
调用 ) 

(D 该 方法 已 弃 用 ， 更 好 的 方式 是 设置 (或 获取 )〉 thread.name 属性 ， 或 者 在 实例 化 过 程 中 传递 该 属性 。 

© 驼峰 式 命名 已 经 弃 用 ， 并 且 从 Python 2.6 版 本 起 已 经 开始 被 取代 。 

@ is/setDaemon0 〇 已 经 弃 用 ， 应 当 设 置 thread.daemon 属性 ， 从 Python 3.3 版 本 起 ， 也 可 以 通过 可 选 的 ”daemon 值 在 实例 化 过 

程 中 设 定 thread.daemon 属性 。 
























































使 用 Thread 类 ， 可 以 有 很 多 方法 来 创建 线程 。 我 们 将 介绍 其 中 比较 相似 的 三 种 方法 。 选 
择 你 觉得 最 舒服 的 ,或 者 是 最 适合 你 的 应 用 和 未 来 扩展 的 方法 (我 们 更 倾向 于 最 后 一 种 方案 )。 

















。 创建 Thread 的 实例 ， 传 给 它 一 个 函数 。 

。 创建 Thread 的 实例 ， 传 给 它 一 个 可 调用 的 类 实 候 

。 派生 Thread 的 子 类 ， 并 创建 子 类 的 实例 。 

你 会 发 现 你 将 选择 第 一 个 或 第 三 个 方案 。 当 你 需要 一 个 更 加 符合 面向 对 象 的 接口 时 ， 
会 选择 后 者 ; 否则 会 选择 前 者 。 老 实说 ， 你 会 发 现 第 二 种 方案 显得 有 些 尴 众 并 且 稍微 难以 
阅读 。 


创建 Thread 的 实例 ， 传 给 它 一 个 函数 


竺 第 一 个 例子 中 ,我们 只 是 把 Thread 类 实例 化 ， 然 后 将 函数 (及 其 参数 ) 传递 进去 ， 和 
之 前 例子 中 采用 的 方式 一 样 。 当 线程 开始 执行 时 ， 这 个 函数 也 会 开始 执行 。 把 示例 4-3 的 
mtsleepB.py 脚本 进行 修改 ， 添 加 使 用 Thread 类 ， 得 到 示例 4-4 中 的 mtsleepC.py 文件 


= 
o 
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示例 4-4 使 用 threading #42 (mtsleepC.py) 


threading 模块 的 Thread 类 有 一 个 join () 方 法 ， 可 以 让 主线 程 等 待 所 有 线程 执行 完毕 。 
1 #!/usr/bin/env python 





import threading 
from time import sleep, ctime 


“ni 上 LO iD 
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6 loops = [4,2] 

1 

8 def loop(nloop, nsec): 

9 print 'start loop', nloop, 'at:', ctime() 
10 sleep(nsec) 

ll print 'loop', nloop, ‘done at:', ctime() 
12 

13 def main(): 

14 print ‘starting at:', ctime() 

15 threads = [] 

16 nloops = range(len(loops)) 

17 

18 for i in nloops: 

19 t = threading.Thread(target=loop, 

20 args-(i, loops[i])) 

21 threads.append(t) 

22 

23 for i in nloops: # start threads 
24 threads[i].startQ 

25 

26 for i in nloops: # wait for all 
27 threads[i].join(O # threads to finish 
28 

29 print 'all DONE at:', ctime() 

30 

3| if name == ' main ': 

32 main() 


当 运 行 示例 4-4 














$ mtsleepC.py 
: Sun Aug 13 18:16:38 2006 

0 at: Sun Aug 13 18:16:38 2006 
1 at: Sun Aug 13 18:16:38 2006 
at: Sun Aug 13 18:16:40 2006 
at: Sun Aug 13 18:16:42 2006 


starting at 
Start loop 
start loop 
loop 1 done 
loop 0 done 
all DONE at 


那么 ， 这 里 到 底 做 了 哪些 修改 呢 ? 使 





: Sun Aug 13 18:16:42 


2006 























中 的 脚本 时 ， 可 以 得 到 和 之 前 相似 的 输出 。 





] thread 模块 时 实现 的 锁 没 有 了 ， 取 而 代 之 的 是 一 


组 Thread 对 象 。 当 实例 化 每 个 Thread 对 象 时 ， 把 函数 Ctarge 和 参数 Cargs) 传 进 去 ， 然 





后 得 到 返回 的 Thread 实例 。 实 例 化 Thread Ci 
的 最 大 区 别 是 新 线程 不 会 立即 








望 线程 立即 开始 执行 时 。 


当 所 有 线程 都 分 配 完 成 之 后 ， 通 过 调 月 
在 这 之 前 就 会 执行 。 相 比 于 管理 一 纪 








情况 下 ， 达 到 超时 时 








开始 执 行 。 这 是 一 个 非常 有 月 























间 。 使 月 





又 称 为 自 旋 锁 的 原因 


de 














5H] Thread()) 和 调用 thread.start_new_thread() 
的 同步 功能 ， 尤 其 是 当 你 并 不 希 














每 个 线程 


的 start0) 方 法 让 它们 开始 执行 ， 而 不 是 


晶 锁 〈 分 配 、 获 取 、 释 放 、 检 查 锁 状态 等 ) 而 言 ， 这 里 只 
需要 为 每 个 线程 调用 join0 方 法 即 可 。join0) 方 法 将 等 待 线程 结束 ， 或 者 在 提供 了 











有 join0 方 法 要 比 等 待 锁 释放 的 无 限 循环 更 加 清晰 (这 





Ee ES} EST Ti] FS] 
也 是 这 种 锁 
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对 于 join0 方 法 而 言 ， 其 另 一 个 重要 方面 是 其 实 它 根本 不 需要 调 ) 
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就 会 一 直 执行 ， 直 到 给 定 的 函数 完成 后 退 昌 
这 些 线程 完成 《例如 其 他 处 理 或 者 等 竺 新 的 客户 端 请 求 )， 就 可 以 不 调 ) 
竺 线程 完成 的 时 候 才 是 有 用 的 。 











有 在 你 需要 等 


L1 2 














上 。 如 果 主 线程 还 有 其 他 事 ; 


j。 一 旦 线程 启动 ， 


青 要 去 做 ， 而 不 是 等 待 














创建 Thread 的 实例 ， 传 给 它 一 个 可 调用 的 类 实例 


在 创建 线程 时 ， 与 传 入 函数 相似 的 一 个 方法 是 传 入 一 个 可 调 





















































J join). joinQ Wie A 


它们 








的 类 的 实例 ， 用 于 线程 执 


行 一 一 这 种 方法 更 加 接近 面向 对 象 的 多 线程 编程 。 这 种 可 调用 的 类 包含 一 个 执行 环境 ， 比 起 
一 个 函数 或 者 从 一 组 函数 中 选择 而 言 ， 有 更 好 的 灵活 性 。 现 在 你 有 了 一 个 类 对 象 ， 而 不 仅仅 
是 单个 函数 或 者 一 个 函数 列表 /元 组 。 


在 mtsleepC.py 的 代码 









































mtsleepD.py， 如 示例 4-5 所 示 。 


示例 4-5 ”使 用 可 调用 的 类 (mtsleepD.py) 

















本 例 中 ， 将 传递 进去 一 个 可 调用 类 〈 实 例 ) 而 不 仅仅 是 一 个 函数 。 相 比 于 mt sleepCc .py， 这 个 实现 中 提 人 f 
面向 对 象 的 方法 。 

1 #!/usr/bin/env python 

2 

3 import threading 

4 from time import sleep, ctime 

5 

6 loops = [4,2] 

7 

8 class ThreadFunc(object): 

9 

10 def _ init__(self, func, args, name=''): 

11 self.name = name 

12 self.func = func 

13 self.args - args 

14 

15 def call Cself): 

16 self.func(*self.args) 

17 

18 def loop(nloop, nsec): 

19 print 'start loop', nloop, 'at:', ctime() 

20 sleep(nsec) 

21 print 'loop', nloop, ‘done at:', ctime() 

22 

23 def main(): 

24 print 'starting at:', ctime() 

25 threads - [] 

26 nloops = range(len(loops)) 

27 

28 for i in nloops: # create all threads 

29 t = threading. Thread( 

30 target-ThreadFunc(loop, (i, loops[i]), 

31 loop.__name__)) 


























添加 一 个 新 类 ThreadFunc， 并 进行 一 些 其 他 的 轻微 改动 ， 得 到 


























ET E 





32 threads.append(t) 
33 
34 for i in nloops: # start all threads 
35 threads[i].start() 
36 
37 for i in nloops: # wait for completion 
38 threads[i].joinO 
39 
40 print 'all DONE at:', ctime() 
4l 
42 if name == ' main ': 
43 main() 
当 运 行 mtsleepD.py 时 ， 得 到 了 下 面 的 输出 。 


$ mtsleepD.py 
starting at: Sun 
start loop 0 at: 
start loop 1 at: 
loop 1 done at: 
loop 0 done at: 


ll DONE at: 





al Sun 


Aug 13 18:49:17 2006 
Sun Aug 13 18:49:17 2006 
Sun Aug 13 18:49:17 2006 
Sun Aug 13 18:49:19 2006 
Sun Aug 13 18:49:21 2006 
Aug 13 18:49:21 2006 








那么 ， 这 次 又 修改 J 
做 了 一 点 小 改动 ， 同 时 实 
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什么 呢 ? 主 要 是 添加 了 ThreadFunc 类 ， 并 在 实例 化 Thread 对 象 时 





























































































































例 化 了 可 调用 类 ThreadFunc。 实 际 上 ， 这 里 完成 了 两 个 实例 化 。 让 









































我 们 先 仔细 看 看 ThreadFunc 类 吧 。 

我 们 希望 这 个 类 更 加 通用 ， 而 不 是 局 限于 loop0 函 数 ， 因 此 添加 了 一 些 新 的 东西 ， 比 如 让 
这 个 类 保存 了 函数 的 参数 、 函 数 自身 以 及 函数 名 的 字符 串 。 而 构造 函数 _init_0 用 于 设 定 上 述 
这 些 值 。 

当 创建 新 线程 时 ，Thread 类 的 代码 将 调用 ThreadFunc 对 象 ， 此 时 会 调用 _call_0 这 个 
特殊 方法 。 由 于 我 们 已 经 有 了 要 用 到 的 参数 ， 这 里 就 不 需要 再 将 其 传递 给 Thread() 的 构造 函 
数 了 ， 直 接 调 用 即 可 。 


























IR Thread 的 子 类 ， 并 创建 子 类 的 实例 





最 后 要 介绍 的 这 个 例子 要 调用 











当 创 建 线程 时 使 / 
码 ， 并 给 出 它 执 行 的 输出 





























下 面 是 mtsleepE.py 的 输出 ， 和 预期 的 一 样 。 


$ mtsleepE.py 
starting at: Sun 
start loop 0 at: 
start loop 1 at: 


loop 1 done at: 


4:26 2006 

19:14:26 2006 
19:14:26 2006 
9:14:28 2006 


Aug 13 19: 
Sun Aug 13 
Sun Aug 13 
Sun Aug 13 














j 子 类 要 相对 更 容易 阅读 〈 第 29 —30 行 )。 示 例 4—6 1 
结果 ， 最 后 会 留 给 读者 一 个 比较 mtsleepE.py 和 mtsleepD.py 的 练习 。 








Thread0 的 子 类 ， 和 上 一 个 创建 可 调 ) 














] 类 的 例子 有 些 相似 。 
给 出 mtsleepE.py 的 代 
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loop 0 done at: Sun Aug 13 19:14:30 2006 
all DONE at: Sun Aug 13 19:14:30 2006 


示例 4-6 子 类 化 的 Thread (mtsleepE.py) 


本 例 中 将 对 Thread 子 类 化 ， 而 不 是 直接 对 其 实例 化 。 这 将 使 我 们 在 定制 线程 对 象 时 拥有 更 多 的 灵活 性 ， 也 能 够 简 
化 线程 创建 的 调用 过 程 。 





























G 






































#!/usr/bin/env python 





1 

2 

3 import threading 

4 from time import sleep, ctime 

5 

6 loops = (4, 2) 

7 

8 class MyThread(threading. Thread): 

9 def _ init__(self, func, args, name=''): 
10 threading.Thread. init (self) 
11 self.name = name 

12 self.func = func 

13 self.args - args 

14 

15 def run(self): 

16 self.func(*self.args) 

17 

18 def loop(nloop, nsec): 

19 print 'start loop', nloop, 'at:', ctime() 
20 sleep(nsec) 

21 print 'loop', nloop, 'done at:', ctime() 
22 

23 def main(): 

24 print 'starting at:', ctime() 

25 threads - [] 

26 nloops = range(len(10o0ps)) 

27 

28 for i in nloops: 

29 t = MyThread(loop, (i, loops[i]), 
30 loop. name ) 

31 threads.append(t) 

32 

33 for i in nloops: 

34 threads[i].start() 

35 

36 for i in nloops: 

37 threads[i].joinQ 

38 

39 print ‘all DONE at:', ctime()' 

40 

41 if name == ' main ': 

42 main() 








当 比 较 mtsleepD 和 mstsleepE 这 两 个 模块 的 代码 时 , 注意 其 中 的 几 个 重要 变化 :1)MyThread 
子 类 的 构造 函数 必须 先 调用 其 基 类 的 构造 函数 〈 第 9 行 ); 2) 之 前 的 特殊 方法 _call_0 在 这 个 
子 类 中 必须 要 写 为 ran0。 

现在 ， 对 MyThread 类 进行 修改 ， 增 加 一 些 调试 信息 的 输出 ， 并 将 其 存储 为 一 个 名 为 
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myThread 的 独立 模块 ( 见 示例 4-7)， 以 便 在 接 下 来 的 例子 中 导入 这 。 除 了 简单 地 调用 函 
数 外 , 还 将 把 结果 保存 在 实例 属性 self.res H, 并 创建 一 个 新 的 方法 X^ MB. 



























































示例 4-7 Thread FÆ MyThread (myThread.py) 


为 了 让 mtsleepE .py 中 实现 的 Thread 的 子 类 更 加 通用 ,将 这 个 子 类 移 到 一 个 专门 的 模块 中 ， 并 添加 了 可 调用 的 
getResult () 方法 来 取得 返回 值 。 




































































#!/usr/bin/env python 


1 

2 

3 import threading 

4 from time import ctime 

> 

6 class MyThread(threading. Thread): 

7 def _ init__(self, func, args, name=''): 
8 threading. Thread.__ init__(self) 

9 self.name = name 

10 self.func = func 

1 self.args - args 

12 

13 def getResult(self): 

14 return self.res 

15 

16 def run(self): 

17 print 'starting', self.name, ‘at:', \ 
18 ctime() 

19 self.res = self.func(*self.args) 
20 print self.name, ‘finished at:', \ 
21 ctime() 


4.5.2 threading 模块 的 其 他 函数 
除了 各 种 同步 和 线程 对 象 外 ，threading 模块 还 提供 了 一 些 函 数 ， 如 表 4-4 所 示 。 





表 4-4 threading 模块 的 函数 
























































A 数 描 述 
activeCount/ active. count() " 当前 活动 的 Thread 对 象 个 数 
current Thread() /current. thread 返回 当前 的 Thread X 
enumerate() 返回 当前 活动 的 Thread 对 象 列 表 
settrace (func) ^ 为 所 有 线程 设置 一 个 trace 函数 
setprofile (func) ^ 为 所 有 线程 设置 一 个 profile 函数 
stack. size (size=0) ^ > 可 新 创建 线程 的 栈 大 小 ; 或 为 后 续 创 建 的 线程 设 定 栈 的 大 小 
ly size 




















(D 驼峰 式 命 名 已 经 弃 用 ， 并 且 从 Python 2.6 版 本 起 已 经 开始 被 取代 。 
Q) 自 Python 2.3 版 本 开始 引入 。 
@ thread.stack_size() 的 一 个 别名 ，【〔 都 是 ) 从 Python 2.5 版 本 开始 引入 的 。 
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4.6 ”单线 程 和 多 线程 执行 对 比 


示例 4-8 的 mtfacfib.py 脚本 比较 了 递归 求 斐 波 那 契 、 阶 乘 与 累加 函数 的 执行 。 该 脚本 按 
照 单线 程 的 方式 运行 这 三 个 函数 。 之 后 使 用 多 线程 的 方式 执行 同样 的 任务 ， 用 来 说 明 多 线程 
环境 的 优点 。 

示例 4-8 ” 斐 波 那 契 、 阶 乘 与 累加 〈mtfacfib.py) 
在 这 个 多 线程 应 用 中 ， 将 先后 使 用 单线 程 和 多 线程 的 方式 分 别 执行 三 个 独立 的 递归 函数 。 






























































#!/usr/bin/env python 


l 

2 

3 from myThread import MyThread 

4 from time import ctime, sleep 

5 

6 def fib(x): 

7 sleep(0.005) 

8 if x « 2: return 1 

9 return (fib(x-2) + fib(x-1)) 
10 

l1 def fac(x): 

12 sleep(0.1) 

13 if x « 2: return 1 

14 return (x * fac(x-1)) 

15 

16 def sum(x): 

17 sleep(0.1) 

18 if x « 2: return 1 

19 return (x + sum(x-1)) 

20 

21 funcs = [fib, fac, sum] 

22 n= 12 

23 

24 def main(): 

25 nfuncs = range(len(funcs)) 

26 

27 print '*** SINGLE THREAD' 

28 for i in nfuncs: 

29 print 'starting', funcs[i]. name , 'at:', \ 
30 ctime() 

31 print funcs[i](n) 

32 print funcs[i]. name , 'finished at:', \ 
33 ctime() 

34 

35 print '\n*** MULTIPLE THREADS' 
36 threads = [] 

37 for i in nfuncs: 

38 t = MyThread(funcs[i], (n,), 
39 funcs[i]. name ) 

40 threads.append(t) 
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42 for i in nfuncs: 
43 threads[i].startQ 
44 
45 for i in nfuncs: 
46 threads[i].joinO 
47 print threads[i].getResult() 
4 
is print ‘all DONE' 
50 
51 if name == ' qain ': 
52 main() 
以 单线 程 模式 运行 时 ， 只 是 简单 地 依次 调用 每 个 函数 ， 并 在 函数 执行 结束 后 立即 显示 相 
应 的 结果 。 
而 以 多 线程 模式 运行 时 ， 并 不 会 立即 显示 结果 。 因 为 我 们 希望 让 MyThread 类 越 通 用 越 
好 〈 有 输出 和 没有 输出 的 调用 都 能 够 执行 )， 我 们 要 一 直 等 到 所 有 线程 都 执行 结束 ， 然 后 调用 
getResult()7; 法 来 最 终 显示 每 个 函数 的 返回 值 。 
因为 这 些 函 数 执行 起 来 都 非常 快 (也许 斐 波 那 契 函 数 除外 ), 所 以 你 会 发 现在 每 个 函数 
都 加 入 了 sleep0 调 用 ， 用 于 减 慢 执行 速度 ， 以 便 让 我 们 看 到 多 线程 是 如 何 改 善 性 能 的 。 在 实 
际 工 作 中 ， 如 果 确 实 有 不 同 的 执行 时 间 ， 你 肯定 不 会 在 其 中 调用 sleep0 函 数 。 无 论 如 何 ， 下 
轩 是 程序 的 输出 结果 。 

















$ mtfacfib.py 


*** SINGLE THREAD 


Starting fib 
233 
fib finished 
starting fac 
479001600 

fac finished 
S 








tarting sum 


sum finished 


*** MULTIPLE 
Starting fib 
starting fac 
Starting sum 
fac finished 
sum finished 
fib finished 
233 
479001600 

78 

all DONE 


at: 





Wed 


: Wed 
: Wed 


: Wed 
: Wed 


: Wed 


HREADS 
: Wed 
: Wed 
: Wed 
: Wed 
: Wed 
: Wed 


Nov 


Nov 
Nov 


Nov 
Nov 


Nov 


Nov 
Nov 
Nov 
Nov 
Nov 
Nov 





DDD DD Ov 





œo oo o OO OO oo 


152 


$52 
:52 


252 
252 


152 


252 
#52 
152 
:52 
:52 
152 


:20 


:24 
:24 


:26 
:26 


224 


227 
exl 
^ 
:28 
:28 
r3 


20 


20 
20 


20 
20 


20 


20 
20 
20 
20 
20 
20 
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4.7 ”多 线程 实践 


到 目前 为 止 ,我 们 已 经 见 到 的 这 些 简单 的 示例 片段 都 无 法 代表 你 要 在 实践 中 写 出 的 代码 。 
除了 演示 多 线程 和 创建 线程 的 不 同方 式 外 ， 之 前 的 代码 实际 上 什么 有 用 的 事情 都 没有 做 。 我 











们 启动 这 些 线程 以 及 等 待 它们 结束 的 方式 都 是 一 样 的 ， 它 们 也 全 都 睡眠 。 
4.3.1 节 兽 提 到 ， 由 于 Python 虚拟 机 是 单线 程 (GIL) 的 原因 ， 只 有 线程 在 执行 IO 密集 
型 的 应 用 时 才能 更 好 地 发 挥 Python 的 并 发 性 〈 对 比 计算 密集 型 应 用 ， 它 只 需要 做 轮 询 )， 因 



































































































































此 让 我 们 看 一 个 VO 密集 型 的 例子 ， 然 后 作为 进一步 的 练习 ， 尝 试 将 其 移植 到 Python 3 中 ， 
以 让 你 对 向 Python 3 移植 的 处 理 有 一 定 认识 。 


47.1 图 书 排名 示例 


示例 4-9 的 bookrank.py 脚本 非常 直接 。 它 将 前 往 我 最 喜欢 的 在 线 零售 商 之 一 Amazon， 
然后 请 求 你 希望 查询 的 图 书 的 当前 排名 。 在 这 个 示例 代码 中 ， 你 可 以 看 到 函数 getRankingO 














使 用 正则 表达 式 来 拉 取 和 返 
请 记 住 ， 根 据 Amazon 的 使 用 条 件 “Amazon 对 您 在 本 网 站 的 访问 和 个 人 使 用 授予 有 限 
许可 ， 未 经 Amazon 明确 的 书面 同意 ， 不 允许 对 全 部 或 部 分 内 容 进 行 下 载 〈 页 面 缓存 除外 ) 
或 修改 。” 在 该 程序 中 ， 我 们 所 做 的 只 是 查询 指定 书籍 的 当前 排名 ， 没 有 任何 其 他 操作 ， 甚 至 
都 不 会 对 页 面 进 行 缓存 。 

示例 4-9 是 我 们 对 于 bookrank.py 的 第 一 次 (不 过 与 最 终 版 本 也 很 接近 了 ) 尝试 ， 这 是 

















个 没有 使 月 
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当前 的 排名 ， 而 函数 showRankingO 用 于 向 用 户 显 示 结 果 。 












































































































































线程 的 版 本 。 


示例 4-9 图 书 排名 “Screenscraper”(bookrank.py) 











该 脚本 通过 


办 和 一 























单线 程 进 行 下 载 图 书 排名 信息 的 调用 。 
































#!/usr/bin/env python 


from 
from 
from 
from 
from 


atexit import register 

re import compile 

threading import Thread 

time import ctime 

urllib2 import urlopen as uopen 


REGEX = compileC'#([\d,]+) in Books ') 


AMZN 


= 'http://amazon. com/dp/ ' 


ISBNs = ( 


0132269937': 'Core Python Programming’, 
0132356139': "Python Web Development with Django’, 
0137143419': “Python Fundamentals’, 

















def getRanking(isbn): 
page = uopen('%s%s' % (AMZN, isbn)) # or str.format() 
data = page.read() 





20 page.close() 
21 return REGEX. findall (data) [0] 
22 
23 def showRanking(isbn): 
24 print '- %r ranked %s' % ( 
25 ISBNs[isbn], getRankingCisbn)) 
26 
27 def main(): 
28 print 'At', ctime(), ‘on Amazon... ' 
29 for isbn in ISBNs: 
30 _showRanking(isbn) 
31 
32 @register 
33 def _atexit(): 
34 print 'all DONE at:', ctime() 
35 
36 if name == ' main ': 
37 main() 
逐 行 解释 
第 1~7 行 


这 些 行 用 于 启动 和 导入 模块 。 这 里 将 
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FA atexitregisterO 函 数 来 告知 脚本 何 时 结束 《你 








图 书 排名 的 模式 。 














do 
































这 本 书 的 


ISBN 格式 都 可 以 识别 ， 这 里 使 用 


5 显示 时 间 戳 字 











第 9—15 行 


[i 

















IA BER] T. 3 个 常量 : 
了 编译 );， Amazon 商品 页 基本 链接 AMZN， 为 了 使 这 个 链接 完整 ， 我 们 只 需要 
国际 标准 书号 CISBN), BP 
符 长 的 ISBN-10， 以 及 它 的 新 版 一 一 13 字符 长 的 ISBN-13。 























这 里 还 将 使 
然后 ,为 未 来 的 改进 (很 快 就 会 出 现 
符 串 导入 了 time.ctime0， 为 访问 每 个 链接 导入 了 urllib2.urlopen()。 














正则 表达 式 的 re.compileO 函 数 ， 














正则 表达 式 对 象 REGEX 〈 对 匹配 




















于 区 分 不 同 作品 的 图 
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应 的 书 名 。 
& 171—214 
getRankingO FAZIT] 



























































] urllib2.urlopen0) 来 打开 这 个 地 址 。 这 里 使 用 



































| 完整 的 URL 之 后 , 3 











周 
务 器 连接 成 功 ， 就 可 以 得 到 服务 器 返回 的 类 似 文件 的 对 象 。 然 后 调用 














] urllib2.urlopen0 函 数 一 一 这 里 简写 为 uopenO， 一 旦 














于 匹配 Amazon 商品 





"B ID. ISBN 有 两 种 标准 ; 
目前 ，Amazon 的 系统 对 于 两 种 
了 更 短 的 ISBN-10。 在 ISBNs 字典 中 存储 了 这 个 值 及 其 


导入 了 threading.Thread 模块 ， 














图 书 排名 的 正则 模式 进行 


让 最 后 填充 上 


10 ^£ 




















对 





j 途 是 根据 ISBN， 创 建 与 Amazon 服务 器 通信 的 最 终 URL， 然 后 调 
字符 串 格式 化 操作 符 来 拼接 URL (第 18 49) , 
用 的 是 2.6 或 以 上 版 本 ， 也 可 以 尝试 str.formatO 方 法 ， 比 如 '{0}{1}'format(AMZN,， 











Web 服 




















read0 函 数 下 载 整个 网 
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页 ， 以 及 关闭 这 个 “文件 ”如 果 正 则 表达 式 与 预期 一 样 精确 ， 应 当 有 且 只 有 一 个 匹配 ， 因 此 
从 生成 的 列表 中 抓 取 这 个 值 〈 任 何 额外 的 结果 都 将 丢弃 )， 并 将 其 返回 。 
第 23~25 行 
_showRanking() 函 数 只 有 一 小 段 代 码 , 通过 ISBN, 查询 其 对 应 的 书 名 , 调用 getRanking() 
函数 从 Amazon 网 站 上 获得 这 本 书 的 当前 排名 ， 然 后 把 这 些 值 输出 给 用 户 。 函 数 名 最 前 面 的 
单 下 划 线 表示 这 是 一 个 特殊 函数 ， 只 能 被 本 模块 的 代码 使 用 ， 不 能 被 其 他 使 用 本 文件 作为 库 
或 者 工具 模块 的 应 用 导入 。 
第 271—304; 
_main0 函 数 同 样 是 一 个 特殊 函数 ， 只 有 这 个 模块 从 命令 行 直接 运行 时 才 会 执行 该 函数 
(并 且 不 能 被 其 他 模块 导入 )。 该 函数 会 显示 起 止 时 间 (让 用 户 了 解 整 个 脚本 运行 了 多 久 ), 为 
每 个 ISBN 调用 _showRanking0 函 数 以 查询 和 显示 其 在 Amazon 上 的 当前 排名 。 
第 32 一 37 íT 
这 些 行 展现 了 一 些 完全 不 同 的 东西 。atexitregisterO 是 什么 呢 ? 这 个 函数 (这 里 使 用 
了 装饰 器 的 方式 ) 会 在 Python 解释 器 中 注册 一 个 退出 函数 ， 也 就 是 说 ， 它 会 在 脚本 退出 
之 前 请 求 调 用 这 个 特殊 函数 。( 如 果 不 使 用 装饰 器 的 方式 ， 也 可 以 直接 使 用 
register(_atexit())). 
为 什么 要 在 这 里 使 用 这 个 函数 呢 ? 当然 ， 目 前 而 言 ， 它 并 不 是 必需 的 。 输 出 语句 也 可 以 
放 在 第 27—31 行 的 _main0) 函 数 结尾 ， 不 过 那里 并 不 是 一 个 真 的 好 位 置 。 另 外 ， 这 也 是 一 个 
可 能 会 在 某 种 情况 下 用 于 实际 生产 应 用 的 功能 。 假设 你 知道 第 36 一 37 行 的 含义 , 可 以 得 到 如 
下 输出 结果 : 
$ python bookrank.py 
At Wed Mar 30 22:11:19 2011 PDT on Amazon... 
- 'Core Python Programming' ranked 87,118 
- 'Python Fundamentals' ranked 851,816 


- 'Python Web Development with Django' ranked 184,735 
all DONE at: Wed Mar 30 22:11:25 2011 


你 可 能 会 感到 疑惑 , 为 什么 我 们 会 把 数据 的 获取 (getRanking0) 和 显示 (€ showRankingO 
All_main()) 过 程 分 开 呢 ? 这 样 做 是 为 了 防止 你 产生 除了 通过 终端 向 用 户 显 示 结 果 以 外 的 想 
法 。 在 实践 中 ， 你 可 能 会 有 将 数据 通过 Web 模板 返回 、 存 储 在 数据 库 中 或 者 发 送 结果 文本 到 
手机 上 等 需求 。 如 果 把 所 有 代码 都 放 在 一 个 函数 里 ， 会 难以 复 用 和 /或 重新 调整 。 

此 外 ， 如 果 Amazon 修改 了 商品 页 的 布局 ， 你 可 能 需要 修改 正则 表达 式 “screenscraper” 
以 继续 从 商品 页 提取 数据 。 还 需要 说 明 的 是 ， 在 这 个 简单 的 例子 中 使 用 正则 表达 式 (或 者 只 
是 简 学 的 旧式 字符 串 处 理 ) 是 没有 问题 的 ， 不 过 你 可 能 需要 一 个 更 强大 的 标记 解析 器 ， 比 如 
标准 库 中 的 HTMLParser， 第 三 方 工 具 BeautifulSoup. html5lib 或 者 Ixml (第 9 章 会 演示 其 中 
部 分 工具 )。 


一 一 、 









































































































































































































































































































































































































































































































































































































































引入 线程 
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不 需要 你 告诉 我 这 仍然 是 一 个 昌 春 的 单线 程 程序 ， 我 们 接 下 来 就 要 使 用 多 线程 来 修改 这 





















































个 应 用 。 由 于 这 是 














个 VO 密集 型 应 用 ， 因 此 这 个 程序 使 用 多 线程 是 一 个 好 的 选择 。 简 单 起 































































































见 ， 我 们 不 会 在 这 里 使 用 任何 类 和 面向 对 象 编程 ， 而 是 使 用 threading 模块 。 我 们 将 直接 使 用 
Thread 类 ， 所 以 你 可 以 认为 这 更 像 是 mtsleepC.py 的 衍生 品 ， 而 不 是 它 之 后 的 例子 。 我 们 将 
只 是 派生 线程 ， 然 后 立即 启动 这 些 线程 。 
































将 应 用 中 的 _showRanking(isbn) 进 行 如 下 修改 。 
Thread (target=_showRanking, args-(isbn,)).start(). 


就 是 这 样 ! 现在 ， 你 得 到 了 bookrank.py 的 最 终 版 本 ， 可 以 看 出 由 于 增加 了 并 发 ， 这 个 






















































































NM (一般) 会 运行 得 更 快 。 不 过 ， 程 序 能 够 运行 多 快 还 取决 于 最 慢 的 那个 响应 。 





$ python bookrank.py 


At Thu Mar 
- 'Python 
- 'Core Py 


31 10:11:32 2011 on Amazon... 
Fundamentals' ranked 869,010 


thon Programming' ranked 36,481 


- 'Python Web Development with Django' ranked 219,228 


all DONE at: 


Thu Mar 31 10:11:35 2011 
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所 看 到 的 ， 相 比 于 单线 程 版 本 的 6 秒 ， 多 线程 版 本 只 需要 运行 3 Pb. fü 














另外 一 个 需要 注意 的 是 ， 多 线程 版 本 按照 完成 的 顺序 输出 ， 而 单线 程 版 本 按照 变量 的 顺序 。 






































在 单线 程 版 本 中 ， 顺 序 是 由 字典 的 键 决定 的 ， 而 现在 查询 是 并 发 产生 的 ， 输 出 的 先后 则 会 由 
每 个 线程 完成 任务 的 顺序 来 决定 。 


















































在 之 前 mtsleepX.py 的 例子 中 ， 对 所 有 线程 使 用 了 Thread.join0 用 于 阻塞 执行 ， 直 到 每 个 
线程 都 已 退出 。 这 可 以 有 效 阻 止 主线 程 在 所 有 子 线程 都 完成 之 前 继续 执行 , 所 以 输出 语句 “all 








DONE at” 可 以 在 正确 的 时 间 调 用 











在 这 些 例子 
















































































， 对 所 有 线程 调用 join0 并 不 是 必需 的 ， 因 为 它们 不 是 守护 线程 。 无 论 


























如 何 主线 程 都 不 会 在 派生 线程 完成 之 前 退出 脚本 。 由 于 这 个 原因 ， 我 们 将 在 mtsleepE.py 





中 删除 所 有 的 join( 
正确 的 。 
主线 程 会 在 其 
































) 操 作 。 不 过 ， 要 意识 到 如 果 我 们 在 同一 个 地 方 显示 “all done” 这 是 不 
































他 线程 完成 之 前 显示 “all done”， 所 以 我 们 不 能 再 把 print 调用 放 在 


























_main() 里 了 。 有 两 个 地 方 可 以 放置 print 语句 : 第 37 行 main0 返 回 之 后 (脚本 最 后 一 行 )， 


























或 者 使 用 atexit.reg 
它 可 能 对 你 以 后 更 




















中 了 。 























ister0 来 注册 一 个 退出 函数 。 因 为 之 前 没有 讨论 过 后 面 这 种 方法 ,而 且 
有 帮助 ， 所 以 我 们 认为 这 是 一 个 介绍 它 的 好 位 置 。 此 外 ， 这 还 是 一 个 
































在 Python 2 和 3 中 保持 一 致 的 接口 , 接 下 来 我 们 就 要 挑战 如 何 将 这 个 程序 移植 到 Python 3 


























dH 
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移植 到 Python 3 


下 面 我 们 希望 这 个 脚本 能 够 在 Python 3 中 运行 。 对 于 项 目 和 应 用 而 言 ， 都 需要 继续 进行 
迁移 ， 这 是 你 必须 要 熟悉 的 事情 。 幸 运 的 是 ， 有 一 些 工具 可 以 帮助 我 们 ， 其 中 之 一 是 2to3 这 
个 工具 。 它 的 一 般 用 法 如 下 。 


$ 2to3 foo.py # only output diff 














































































































$ 2to3 -w foo.py # overwrites w/3.x code 


在 第 一 条 命令 中 ，2to3 工具 只 是 显示 原始 脚本 的 2.x 版 本 与 其 生成 的 等 价 的 3.x 版 本 的 
区 别 。 而 -w 标志 则 让 2to3 工具 使 用 新 生成 的 3.x 版 本 的 代码 重 写 原始 脚本 ， 并 将 2.x 版 本 
命名 为 foo.pybak。 

让 我 们 对 bookrank.py 运行 2to3 工具 ， 在 已 有 的 文件 上 进行 改写 。 除 了 给 出 区 别 外 ， 
还 会 像 之 前 描述 的 那样 保存 新 版 本 的 脚本 。 


$ 2to3 -w bookrank.py 



























































[e] 






























































RefactoringTool: Skipping implicit fixer: buffer 
RefactoringTool: Skipping implicit fixer: idioms 
RefactoringTool: Skipping implicit fixer: set literal 





RefactoringTool: Skipping implicit fixer: ws comma 
--- bookrank.py (original) 

+++ bookrank.py (refactored) 

@@ -4,7 +4,7 @@ 

from re import compile 

from threading import Thread 

from time import ctime 

-from urllib2 import urlopen as uopen 


+from urllib.request import urlopen as uopen 


REGEX = compile('#([\d,]+) in Books ') 

AMZN = (vide Mi AREA 

ee -21,17 421,17 Ge 
return REGEX.findall (data) [0] 





def _showRanking(isbn): 


= print '- Sr ranked %s' $ ( 
元 ISBNs[isbn], getRanking (isbn)) 


t print('- $r ranked $s' $ ( 
t ISBNs[isbn], getRanking(isbn) ) ) 


def _main(): 

= print 'At', ctime(), 'on Amazon...' 

t print('At', ctime(), 'on Amazon...') 
for isbn in ISBNs: 
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Thread (target=_showRanking, 
args=(isbn,)).start () #_showRanking (isbn) 


@register 

def _atexit(): 

x print 'all DONE at:', ctime() 
+ print ('all DONE at:', ctime()) 


if name == main 





.main() 
RefactoringTool: Files that were modified: 


RefactoringTool: bookrank.py 
接 下 来 的 步骤 对 于 读者 而 言 是 可 选 的 ， 我 们 使 用 POSIX 命令 行将 文件 重 命 名 为 
bookrank.py 和 bookrank3.py (Windows 用 户 应 当 使 用 ren 命令 © 






























































$ mv bookrank.py bookrank3.py 
$ mv bookrank.py.bak bookrank.py 


如 果 你 尝试 运行 新 生成 的 代码 ， 就 会 发 现 假定 它 是 一 个 完美 翻译 ， 不 需要 你 再 做 任何 操 
作 的 想法 只 是 你 的 一 厢 情 愿 。 糟 糕 的 事情 发 生 了 ， 你 会 在 每 个 线程 执行 时 得 到 如 下 腊 常 信息 
《下 面 的 输出 只 针对 一 个 线程 ， 因 为 每 个 线程 的 输出 都 一 样 )。 


$ python3 bookrank3.py 



















































































Exception in thread Thread-1: 
Traceback (most recent call last): 

File "/Library/Frameworks/Python.framework/Versions/ 
3.2/lib/python3.2/threading.py", line 736, in 
_bootstrap_inner 

self.run() 

File "/Library/Frameworks/Python.framework/Versions/ 
3.2/lib/python3.2/threading.py", line 689, in run 

self. target(*self. args, **self. kwargs) 

File "bookrank3.py", line 25, in  showRanking 

ISBNs[isbn], getRanking(isbn) ) ) 
File "bookrank3.py", line 21, in getRanking 
return REGEX. findall (data) [0] 
TypeError: can't use a string pattern on a bytes-like object 

















H 




















问题 看 起 来 是 : 正则 表达 式 是 一 个 Unicode 字符 串 ， 而 urlopen0 返 回来 的 类 似 文件 对 象 
的 结果 经 过 read0 方 法 得 到 的 是 一 个 ASCILbytes 字符 串 。 这 里 的 修复 方案 是 将 其 编译 为 一 个 
bytes 对 象 , 而 不 是 文本 字符 串 。 因 此 , 修改 第 9 行 让 re.compile0 编 译 一 个 bytes 字符 串 ( 通 
过 添加 bytes 字符 串 )。 为 了 做 到 这 个 ， 可 以 在 左 侧 的 引号 前 添加 一 个 bytes 字符 串 的 标记 b， 


如 下 所 示 。 
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REGEX = compile (b'#([\d,]+) in Books ') 
现在 ， 让 我 们 再 试 一 次 。 

$ python3 bookrank3.py 

At Sun Apr 3 00:45:46 2011 on Amazon... 

















- 'Core Python Programming' ranked b'108,796' 

- "Python Web Development with Django' ranked b'268,660' 
- 'Python Fundamentals' ranked b'969,149' 

all DONE at: Sun Apr 3 00:45:49 201 


现在 又 是 什么 问题 呢 ? 虽然 这 个 输出 结果 比 之 前 要 好 一 些 ( 没 有 错误 ), 但 是 它 看 起 来 还 
是 有 些 奇怪 。 当 传 给 str0 时 ， 正 则 表达 式 抓 取 的 排名 值 显示 了 b 和 引号 。 你 的 第 一 直觉 可 能 
是 尝试 丑陋 的 字符 串 切 片 。 






























































>>> x = b'xxx' 
>>> repr (x) 
"p'xxx'" 

>>> str(x) 
"p'xxx'" 


>>> str(x)[2:-1] 


XXX 


不 过 ， 更 合适 的 方法 是 将 其 转换 为 一 个 真正 的 〈Unicode) 字符 串 ， 可 能 会 用 到 UTF-8. 





























>>> str(x, 'utf-8') 


Xxx! 


为 了 实现 这 一 点 ， 在 脚本 里 ， 对 第 53 行进 行 一 个 类 似 的 修改 ， 如 下 所 示 。 


























return str(REGEX.findall(data)[0], 'utf-8') 
现在 ，Python 3 版 本 的 脚本 输出 就 和 Python 2 的 脚本 一 致 了 。 


$ python3 bookrank3.py 
At Sun Apr 3 00:47:31 2011 on Amazon... 
- 'Python Fundamentals' ranked 969,149 





- 'Python Web Development with Django' ranked 268,660 
- 'Core Python Programming' ranked 108,796 
all DONE at: Sun Apr 3 00:47:34 2011 


一 般 来 说 , 你 会 发 现 从 2.x 版 本 移植 到 3.x 版 本 会 遵循 类 似 下 面 的 模式 : 你 需要 确保 所 有 
的 单元 测试 和 集成 测试 都 已 经 通过 ， 使 用 2t03 〈 或 其 他 工具 ) 进行 所 有 的 基础 修改 ， 然 后 进 
行 一 些 善 后 工作 ， 让 代码 运行 起 来 并 通过 相同 的 测试 。 我 们 将 在 下 一 个 例子 中 再 次 尝试 这 个 
练习 ， 这 个 例子 将 演示 线程 同步 的 使 用 。 







































































4.7.2 同步 原 语 
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在 本 章 的 主要 部 分 ， 我们 了 解 了 线程 的 基本 概念 ， 以 及 如 何在 Python 应 用 中 利用 线程 。 然 



































而 ,我 们 遗漏 了 多 线程 编程 中 一 个 非常 重要 的 方面 : 同步 。 一 般 在 多 线程 代码 中 ， 总 会 有 一 些 特 
定 的 函数 或 代码 块 不 希望 (或 不 应 该 ) 被 多 个 线程 同时 执行 ， 通常 包括 修改 数据 库 、 更 新 文件 或 






















































































其 他 会 产生 竞 态 条 件 的 类 似 情况 。 回 顾 本 章 前 面 的 部 分 ， 如 果 两 个 线程 运行 的 顺序 发 生变 化 ,就 
有 可 能 造成 代码 的 执行 轨迹 或 行为 不 相同 ， 或 者 产生 不 一 致 的 数据 (可 以 在 Wikipedia 页 面 上 阅 











读 有 关 竞 态 条 件 的 更 多 信息 : http://en.wikipedia.org/wiki/Race_condition )。 




















— 


这 就 是 需要 使 





J 同步 的 情况 。 当 任意 数量 的 线程 可 以 访问 临界 区 的 代码 














Chttp;//en.wikipedia.org/wiki/Critical section) 但 在 给 定 的 时 刻 只 有 一 个 线程 可 以 通过 时 ， 就 是 使 





































































































4.7.3 tml 


























同步 的 时 候 了 。 程 序 员 选择 适合 的 同步 原 语 ， 或 者 线程 控制 机 制 来 执行 同步 。 进 程 同 步 有 不 
同 的 类 型 (参见 http;//en.wikipedia.org/wiki/Synchronization (computer science)), Python 文 持 
多 种 同步 类 型 ， 可 以 给 你 足够 多 的 选择 ， 以 便 选 出 最 适合 完成 任务 的 那 种 类 型 。 

本 章 前 面 对 同 步 进行 过 一 些 介绍 , 所 以 这 里 就 使 用 其 中 两 种 类 型 的 同步 原 语 演示 几 个 示例 程 
序 : 锁 / 互 斥 ， 以 及 信和 号 量 。 锁 是 所 有 机 制 中 最 简单 、 最 低级 的 机 制 ， 而 信号 量 用 于 多 线程 竞争 
有 限 资 源 的 情况 。 锁 比较 容易 理解 ， 因 此 先 从 锁 开始 ， 然 后 再 讨论 信号 量 。 













































































锁 有 两 种 状态 .锁定 和 未 锁定 。 而 且 它 也 只 支持 两 个 函数 ， 获 得 锁 和 释放 锁 。 它 的 行为 





和 你 想象 的 完全 一 样 。 
当 多 线程 争夺 锁 时 ， 允 许 第 一 个 获得 锁 上 
的 线程 将 被 阻塞 ， 直 到 第 一 个 线程 执行 结束 ， 











的 线程 进入 临界 区 ， 并 执行 代码 。 所 有 之 后 到 达 
退出 临界 区 ， 并 释放 锁 。 此 时 ， 其 他 等 待 的 线 


























程 可 以 获得 锁 并 进入 临界 区 。 不 过 请 记 住 ， 那 些 被 阻塞 的 线程 是 没有 顺序 的 《〈 即 不 是 先 到 先 
执行 )， 胜 出 线程 的 选择 是 不 确定 的 ， 而 且 还 会 根据 Python 实现 的 不 同 而 有 所 区 别 。 







































































让 我 们 来 看 看 为 什么 锁 是 必需 的 。mtsleepFpy 应 用 派生 了 随机 数量 的 线程 ， 当 每 个 线程 


























执行 结束 时 它 会 进行 输出 。 下 面 是 其 核心 部 分 的 源码 (Python 2). 














from atexit import register 


from random import randrange 


from threading import Thread, currentThread 


from time import sleep, ctime 


class CleanOutputSet (set): 
def  Á str (self): 


return ', '.join(x for x in 


self) 


loops = (randrange(2,5) for x in xrange (randrange(3,7))) 
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remaining = CleanOutputSet () 


def loop (nsec): 
myname = currentThread().name 
remaining .add (myname) 
print '[$s] Started $s' $ (ctime(), myname) 
sleep (nsec) 
remaining. remove (myname) 


print '[%s] Completed $s ($d secs)' $ ( 


ctime(), myname, nsec) 
print ' (remaining: $s)' $ (remaining or 'NONE') 
def _main(): 


for pause in loops: 


Thread(target-loop, args=(pause,)).start () 
@register 
def _atexit(): 
print 'all DONE at:', ctime() 











当 我 们 完成 这 个 使 用 锁 的 代码 后 ， 会 有 一 个 比较 详细 的 逐 行 解释 ， 不 过 mtsleepE.py 
所 做 的 基本 上 就 是 之 前 例子 的 扩展 。 和 bookrank. py 一 样 ， 为 了 简化 代码 ， 没 有 使 用 面向 
对 象 编程 ， 删 除了 线程 对 象 列 表 和 线程 的 join0， 重 用 了 atexitregister() (和 bookrank.py 
相同 的 原因 )。 

另 一 个 和 之 前 的 那些 mtsleepX.py 例子 不 同 的 地 方 是 , 这 里 不 再 把 循环 /线程 对 硬 编码 
成 睡眠 4 PDA 2 秒 ， 而 是 将 它们 随机 地 混合 在 一 起 ， 创 建 3 一 6 个 线程 ， 每 个 线程 睡眠 
2 一 4 秒 。 
这 里 还 有 一 个 新 功能 ， 使 用 集合 来 记录 剩 下 的 还 在 运行 的 线程 。 我 们 对 集合 进行 了 子 类 
化 而 不 是 直接 使 用 ， 这 是 因为 我 们 想 要 演示 另 一 个 用 例 : 变更 集合 的 默认 可 印字 符 串 。 

当 显 示 一 个 集合 时 ， 你 会 得 到 类 似 set([X, YZ,.….]) 这 样 的 输出 。 而 应 用 的 用 户 并 不 需要 
(也 不 应 该 ) 知道 关于 集合 的 信息 ， 或 者 我 们 使 用 了 这 些 集合 。 我 们 只 需要 显示 成 类 似 X, Y, 
Z, ... 这 样 即 可 。 这 也 就 是 派生 了 set 类 并 实现 了 它 的 _ str_0 方 法 的 原因 。 

如 果 季 运 ， 进 行 了 这 些 改 变 之 后 ， 输 出 将 会 按照 适当 的 顺序 给 出 。 



















































































mii 
pin 







































































































































































































































































$ python mtsleepF.py 
[Sat Apr 2 11:37:26 2011] Started Thread-1 
[Sat Apr 2 11:37:26 2011] Started Thread-2 
[Sat Apr 2 11:37:26 2011] Started Thread-3 
[Sat Apr 2 11:37:29 2011] Completed Thread-2 (3 secs) 





(remaining: Thread-3, Thread-1) 
[Sat Apr 2 11:37:30 2011] Completed Thread-1 (4 secs) 
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(remaining: Thread-3) 
[Sat Apr 2 11:37:30 2011] Completed Thread-3 (4 secs) 
(remaining: NONE) 


all DONE at: Sat Apr 2 11:37:30 2011 


不 过 ， 如 果 不 幸 ， 你 将 会 得 到 像 下 面 几 对 执行 示例 这 样 奇怪 的 输出 结果 。 




















$ python mtsleepF.py 
[Sat Apr 2 11:37:09 2011] Started Thread-1 
[Sat Apr 2 11:37:09 2011] Started Thread-2 
[Sat Apr 2 11:37:09 2011] Started Thread-3 
[Sat Apr 2 11:37:12 2011] Completed Thread-1 (3 secs) 
[Sat Apr 2 11:37:12 2011] Completed Thread-2 (3 secs) 





(remaining: Thread-3) 
(remaining: Thread-3) 

[Sat Apr 2 11:37:12 2011] Completed Thread-3 (3 secs) 
(remaining: NONE) 

all DONE at: Sat Apr 2 11:37:12 2011 


$ python mtsleepF.py 

[Sat Apr 2 11:37:56 201 Started Thread-1 
[Sat Apr 2 11:37:56 201 Started Thread-2 
[Sat Apr 2 11:37:56 2011] Started Thread-3 
[Sat Apr 2 11:37:56 201 Started Thread-4 


[Sat Apr 2 11:37:58 201 Completed Thread-2 (2 secs) 
[Sat Apr 2 11:37:58 2011] Completed Thread-4 (2 secs) 











(remaining: Thread-3, Thread-1) 
(remaining: Thread-3, Thread-1) 

[Sat Apr 2 11:38:00 2011] Completed Thread-1 (4 secs) 
(remaining: Thread-3) 


[Sat Apr 2 11:38:00 2011] Completed Thread-3 (4 secs) 





(remaining: NONE) 
all DONE at: Sat Apr 2 11:38:00 2011 


那么 出 现 什么 问题 了 呢 ? 一 个 问题 是 ， 输 出 可 能 部 分 混乱 《因为 多 个 线程 可 能 并 行 执行 
IO)。 同 样 地 ， 之 前 的 几 个 示例 代码 也 都 有 交错 输出 的 问题 存在 。 而 另 一 问题 则 出 现在 两 个 
线程 修改 同一 个 变量 〈 剩 余 线程 名 集合 ) 时。 

VO 和 访问 相同 的 数据 结构 都 属于 临界 区 ， 因 此 需要 用 锁 来 防止 多 个 线程 同时 进入 临界 
区 。 为 了 加 锁 ， 需 要 添加 一 行 代 码 来 引入 Lock (È RLock)， 然 后 创建 一 个 锁 对 象 ， 因 此 需 
要 添加 /修改 代码 以 便 在 合适 的 位 置 上 包含 这 些 行 。 
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from threading import Thread, Lock, 
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lock = Lock() 


现在 应 该 使 用 刚 创 建 的 这 个 锁 了 。 下 面 代 码 中 突出 显示 的 acquireO 8I release ii 


应 当 在 loop() 


def 





一 旦 做 了 这 个 改变 ， 就 不 会 8 


$ py 
Sun 
Sun 
Sun 
Sun 
Sun 


Sun 


Sun 





Sun 


all 


























函数 中 添加 的 语句 。 


loop (nsec): 





myname = currentThread().name 

lock.acquire() 

remaining.add (myname) 

print 

lock.release() 

sleep (nsec) 

lock.acquire () 

remaining. remove (myname) 

print '[$s] Completed $s ($d secs)' % ( 
ctime(), myname, nsec) 


'[$s] Started $s' $ (ctime(), myname) 





currentThread 


print ' (remaining: $s)' $ (remaining or 'NONE') 


lock.release() 














thon mtsleepF.py 

Apr 3 23:16:59 20 Started Thread-1 
Apr 3 23:16:59 20 Started Thread-2 
Apr 3 23:16:59 20 Started Thread-3 
Apr 3 23:16:59 20 Started Thread-4 
Apr 3 23:17:01 20 Completed Thread-3 
(remaining: Thread-4, Thread-2, Thread-1) 
Apr 3 23:17:01 20 Completed Thread-4 
(remaining: Thread-2, Thread-1) 

Apr 3 23:17:02 20 Completed Thread-1 
(remaining: Thread-2) 

Apr 3 23:17:03 20 Completed Thread-2 














(remaining: NONE) 
DONE at: Sun Apr 3 23:17:03 2011 


修改 后 的 最 终 版 mtsleepE.py 如 示例 4-10 所 示 。 


示例 4-10” 锁 和 更 多 的 随机 性 (mtsleepF.py) 














Un 4 v t — 


- o0 


在 本 示例 中 ， 演 示 了 锁 和 一 些 其 他 线程 工具 的 使 用 。 




















#!/usr/bin/env python 


from atexit import register 
from random import randrange 


from threading import Thread, Lock, currentThread 


from time import sleep, ctime 


(2 


(2 


(3 


(4 


有 产生 那 种 奇怪 的 输出 了 。 


secs) 


secs) 


secs) 


secs) 




















就 
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8 class et 
9 def _ str — (self 
10 return ', EOS for x in self) 


12 lock = Lock() 
13 loops = (randrange(2,5) for x in xrange(randrange(3,7))) 
14 remaining = CleanOutputSet() 


16 def loop(nsec): 


17 myname = currentThread().name 

18 lock.acquire() 

19 remaining.add(myname) 

20 print '[%s] Started %s' % (ctime(), myname) 

21 lock. release() 

22 sleep(nsec) 

23 lock.acquire() 

24 remaining. remove (myname) 

25 print '[%s] Completed %s (%d secs)' % ( 

26 ctime(), myname, nsec) 

27 print ' (remaining: %s)' % (remaining or 'NONE') 
28 lock. release() 

29 

30 def _main(): 

31 for pause in loops: 

32 Thread(target=loop, args=(pause,)).startQ 
33 


34 (register 
35 def _atexit(): 





36 print 'all DONE at:', ctime() 
37 
38 if name == ' main ': 
39 main() 
逐 行 解释 
第 1~6 行 





这 部 分 按照 惯 ME 请 注意 ，threading.currentThread() 从 2.6 版 
本 开始 重 命名 为 threading.current thread0， 不 过 为 了 保持 后 向 兼容 性 ， 旧 的 写法 仍旧 保留 
了 下 来 。 

第 8 一 10 行 

这 是 之 前 提 到 过 的 集合 的 子 类 。 它 包括 一 个 对 _str_0 的 实现 ， 可 以 将 默认 输出 改变 为 
将 其 所 有 元 素 按照 逗号 分 隅 的 字符 串 。 

Fs 12—14 íF 

该 部 分 包含 3 个 全 局 变量 : 锁 ; 上 面 提 到 的 修改 后 的 集合 类 的 实例 ; 随机 数量 的 线程 (3 一 
6 个 线程 )， 每 个 线程 暂停 或 睡眠 2 一 4 秒 。 

第 16~28 íF 

loopO 函 数 首 先 保存 当前 执行 它 的 线程 名 , 然后 获取 锁 , 以 便 使 添加 该 线程 名 到 remaining 
集合 以 及 指明 启动 线程 的 输出 操作 是 原子 的 (没有 其 他 线程 可 以 进入 临界 区 )。 释 放 锁 之 后 ， 
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这 个 线程 按照 预先 指定 的 随机 秒 数 执行 睡眠 操作 ， 然 后 重新 获得 锁 





放 锁 。 
第 30—39 íf 

































































行 最 终 输 出， 最 后 释 


总 





只 有 不 是 为 了 在 其 他 地 方 使 用 而 导入 的 情况 下 ，_main() 函 数 才 会 执行 。 它 的 任务 是 派生 


和 执行 每 个 线程 。 和 之 前 提 到 的 一 样 ， 使 用 atexitregister(0 来 注册 _atexit0 函 数 ， 以 便 让 解释 



































器 在 脚本 退出 前 执行 该 函数 。 


























作为 维护 你 自 





























己 的 当前 运行 线程 集合 的 一 种 蔡 代 方案 ， 可 以 考虑 使 用 threading. 






































enumerate()， 该 方法 会 返回 仍 在 运行 的 线程 列表 (包括 守护 线程 ， 但 不 包括 没有 启动 的 线 
程 )。 在 本 例 中 并 没有 使 用 这 个 方案 ， 因 为 它 会 显示 两 个 额外 的 线程 ， 所 以 我 们 需要 删除 这 








两 个 线程 以 保持 输出 的 简洁 。 这 两 个 线程 是 当前 线程 〈 因 

















有 必要 去 显示 )。 

























































































为 它 还 没 结束 )， 以 及 主线 程 〈 没 












































此 外 ， 如 果 你 使 用 的 是 Python 2.6 或 更 新 的 版 本 (包括 3.x 版 本 )， 别 二 了 还 可 以 使 用 


str.format() 77 IE RAR 


print '[$s 














可 以 在 2.6+ 版 本 上 











print '[{0}] Started (1)'.format(ctime(), myname) 


或 者 在 3.x 版 本 中 调用 printo ER Zt: 














print('[(0)] Started {1}'.format (ctime(), myname) 








蔡 字 符 串 格式 化 操作 符 。 换 句 话说 ，print 语句 
Started $s' $ (ctime(), myname) 
被 蔡 换 成 


) 


如 果 只 需要 对 当前 运行 的 线程 进行 计数 ， 那 么 可 以 使 用 threading.activeCount() (2.6 版 本 





开始 重 命 名 为 active 











 countQ) 来 代替 。 





使 用 上 下 文 管理 












































如 果 你 使 用 Python 2.5 或 更 新 版 本 , 还 有 一 种 方案 可 以 不 再 调用 锁 的 acquire0 和 release() 












































方法 ， 从 而 更 进一步 简化 代码 。 这 就 是 使 用 with 语句 ， 此 时 每 个 对 象 的 上 下 文 管理 器 负责 在 














进入 该 套件 之 前 调 














threading 模块 的 对 象 Lock、RLock、 

















上 下 文 管理 器 ， 也 就 
循环 ， 如 下 面 的 代码 所 示 。 











from future _ import with statement # 2.5 only 


def loop(ns 
myname 


with lo 


ec): 
= currentThread().name 


ck: 


remaining.add (myname) 











] acquire() 并 在 完成 执行 之 后 调用 release) « 
Condition、Semaphore 和 BoundedSemaphore 都 包含 
是 说 ,它们 都 可 以 使 用 with 语句 。 当 使 用 with 时 ， 可 以 进一步 简化 loopO 
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print '[$s] Started $s' $ (ctime(), myname) 
sleep (nsec) 
with lock: 
remaining. remove (myname) 
print '[$s] Completed %s ($d secs)' $ ( 
ctime(), myname, nsec) 
print ' (remaining: $s)' $ ( 


remaining or 'NONE',) 


移植 到 Python 3 
























































现在 通过 对 之 前 的 脚本 运行 2to3 工具 ， 进 行 向 Python 3.x 版 本 的 移植 (下 面 的 输出 进行 
了 截断 ， 因 为 之 前 已 经 看 到 过 完整 的 diff 转 储 )。 
$ 2to3 -w mtsleepF.py 
RefactoringTool: Skipping implicit fixer: buffer 
RefactoringTool: Skipping implicit fixer: idioms 
RefactoringTool: Skipping implicit fixer: set literal 
RefactoringTool: Skipping implicit fixer: ws comma 
RefactoringToo Files that were modified: 
RefactoringToo mtsleepF.py 
当 把 mtsleepE.py 重 命 名 为 mtsleepF3. py 并 把 mtsleep.py.bak 重 命 名 为 mtsleepF.py 
后 ， 我 们 会 发 现 ， 这 一 次 出 乎 我 们 的 意料 ， 这 个 脚本 移植 得 非常 完美 ， 没 有 出 现任 何 


问题 











$ python3 mtsleepF3.py 























Sun Apr 3 23:29:39 20 Started Thread-1 

Sun Apr 3 23:29:39 20 Started Thread-2 

Sun Apr 3 23:29:39 20 Started Thread-3 

Sun Apr 3 23:29:41 20 Completed Thread-3 (2 secs) 
(remaining: Thread-2, Thread-1) 

Sun Apr 3 23:29:42 20 Completed Thread-2 (3 secs) 
(remaining: Thread-1) 

Sun Apr 3 23:29:43 20 Completed Thread-1 (4 secs) 
(remaining: NONE) 

all DONE at: Sun Apr 3 23:29:43 201 

现在 让 我 们 带 着 关于 锁 的 知识 ， 开 始 介绍 信号 量 ， 然 后 看 一 个 既 使 用 了 锁 又 使 用 了 信和 号 




















量 的 例子 。 


lim] 
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4.7.4 信号 量 示例 





如 前 所 述 ， 锁 非常 易于 理解 和 实现 ， 也 很 容易 决定 何 时 需要 它们 。 然 而 ， 如 果 情 况 更 加 


复杂 ， 你 可 能 需要 一 个 
能 是 个 不 错 的 决定 。 














更 强大 的 同步 原 语 来 代 蔡 锁 。 对 于 拥有 有 限 资源 的 应 ) 








信号 量 是 





时 递增 。 你 可 


RIA 











最 古老 的 同步 原 语 之 


EN e 











以 认为 信号 量 代表 它们 的 资源 可 用 或 不 可 
习惯 上 称 为 POC( 来 源 于 荷兰 单词 probeer/proberen), 也 称 为 wait、try、acquire、pend 或 procure。 





相对 地 ， 


z 


73 VO RETHA 


Python 简化 了 





个 线程 对 
























































j 来 说 ， 使 ) 


Vi 








个 计数 器 ， 当 资源 消耗 时 递减 ， 当 资源 释放 
] 。 消 耗资 源 使 计数 器 递减 的 操作 





个 资源 完成 操作 时 ， 该 资源 需要 返回 资源 池 中 。 这 个 操作 一 般 称 


Fin] verhogen/verhoog), 也 称 为 signal. increment, release. post. vacate. 








所 有 的 命名 ， 使 用 和 锁 的 函数 /方法 一 样 的 名 字 : acquire 和 release。 信 和 号 量 比 








锁 更 加 灵活 ， 
在 下 面 的 














保持 库存 〈 糖 果 )。 如 果 所 有 的 模 者 


因为 可 以 有 多 个 线程 ， 
列子 中 ， 


















































每 个 线程 拥有 有 限 资源 的 一 个 实例 。 





我 们 将 模拟 一 个 简化 的 糖果 机 。 这 个 特制 的 机 器 只 有 5 个 可 
了 满 了 ， 糖 果 就 不 能 再 加 到 这 个 机 器 中 了 ;， 相似 地 ， 如 果 每 
































Jio 














个 槽 都 空 了 ， 想 要 购买 的 消费 者 就 无 法 买 到 糖果 了 。 我 们 可 以 使 用 信号 量 来 跟踪 这 些 有 限 的 




















AI ERT 





)。 


示例 4-11 为 其 源 代码 (candy.py)。 


示例 


该 脚本 使 


— m — O 06 ~ 个 有 一 
N= oO 


oO -— O9 Sw 


19 
20 


VENN 
A U Nm 


=o ES 


EE 


4-11 糖果 机 和 


(candy.py) 




















了 锁 和 信号 量 来 模拟 








个 糖果 机 。 
#!/usr/bin/env python 





from atexit import register 
from random import randrange 
from threading import BoundedSemaphore, Lock, Thread 
from time import sleep, ctime 


lock = Lock() 
MAX = 5 


candytray = BoundedSemaphore (MAX) 


def refillQ: 


lock.acquire() 


print 'Refilling candy...', 


try: 


candytray.release() 
except ValueError: 


print 'full, 
else: 
print “OK 
lock.release() 
def buyQ: 
lock.acauireO 


skipping' 
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25 print 'Buying candy. 

26 if candytray. oo aaa 

27 print 'OK' 

28 else: 

29 print 'empty, skipping' 

30 lock.release() 

31 

32 def producer (loops) : 

33 for i in xrange(loops): 

34 refillO 

35 sleep(randrange(3)) 

36 

37 def consumer(loops): 

38 for i in xrange(loops): 

39 buyO 

40 sleep(randrange(3)) 

41 

42 def _main(): 

43 print 'starting at:', ctime() 

44 nloops = randrange(2, 6) 

45 print 'THE CANDY MACHINE (full with %d bars)!" % MAX 
46 Thread(target-consumer, args=(randrange( 

47 nloops, nloops+MAX+2),)).start(Q) # buyer 
48 Thread(target=producer, args=(nloops,)).start() #vndr 
49 


50 @register 
51 def atexitO: 





52 print 'all DONE at:' 
53 
54 if name == ' main ': 
55 main() 

逐 行 解释 

第 1~6 47 


JANA AS AR BR] f 4 A 3E 0p 2 





, ctime() 


前 的 例子 非常 相似 。 唯 一 新 增 的 东西 是 信号 量 。 





threading 模块 包括 两 种 信号 量 类 : Semaphore 和 BoundedSemaphore。 如 你 所 知 ， 信 号 量 实际 


IE 
2 


计数 器 ， 它 们 从 固定 数量 的 有 限 资源 起 始 。 








分 配 一 个 单位 的 资源 时 ， 计 数 器 值 减 1， 而 当 一 个 单位 的 资源 返回 资源 池 时 ， 计 数 器 
值 加 1。BoundedSemaphore 的 一 个 额外 功能 是 这 个 计数 器 的 值 永远 不 会 超过 它 的 初始 值 ， 换 











句 话说 ， 它 可 以 防范 其 中 信号 量 
第 8—10 47 
这 个 脚本 的 全 局 变量 包括 : 
第 12~21 行 





释放 次 数 多 于 获得 





次 数 的 异常 用 例 。 





一 个 锁 ， 一 个 表示 库存 商品 最 大 值 的 常量 ， 以 及 糖果 托盘 。 














当 虚 构 的 糖果 机 所 有 者 向 库存 中 添加 糖果 时 ， 会 执行 refill0 函 数 。 这 段 代码 是 一 个 临界 




















就 是 为 什么 获取 锁 是 执行 所 有 行 的 仅 有 方法 





的 糖果 








超过 最 大 库存 时 给 予 警 








告 (Æ 17~18 4) 。 











。 代 码 会 输出 用 户 的 行动 ， 并 在 某 人 添加 
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第 23—30 íf 


buyO 是 和 refill fH c B PAL, ERY 


检测 是 否 





次 增 























F 消 费 者 获取 一 个 单位 的 库存 。 条 件 语句 




















第 26 行 ) 





一般 会 在 计数 器 再 























回 一 个 False， 指 明 没 有 更 多 的 资源 了 。 
第 32~40 行 


producer() 和 consumer() EI 数 都 只 





用 间 和 暂停 。 


第 42—55 41 
尺码 的 剩余 部 分 包括 : 



























































包 


a 


对 _main0 的 调用 





























个 循环 ， 进 行 对 应 的 refil0 和 buyO 调 / 


以 及 最 后 的 _main0 函 数 提供 表示 糖果 库存 生产 者 和 消费 者 的 新 创建 线程 对 。 


人 
p, 


e 

















上 建 消 费 者 / 买 家 的 线程 时 进行 了 额外 
正 消费 的 糖果 数 可 能 会 比 供应 商 /4 





尝试 从 空 机 器 购买 糖果 的 情况 )。 


运行 脚本 ， 会 产 4 





$ python candy.py 























的 数学 操作 ，| 




















E 类 似 下 面 的 输出 结果 。 


starting at: Mon Apr 4 00:56:02 2011 
(full with 5 bars)! 


THE CANDY MACHINE 
Buying candy... O 


Refilling candy... 
Refilling candy... 


Buying candy... O 
Buying candy... O 


Refilling candy... 


Buying candy... O 
Buying candy... O 
Buying candy... O 


K 


K 





K 


OK 


full, skipping 


OK 


all DONE at: Mon Apr 4 00:56:08 2011 


移植 到 Python 3 





` 

















将 其 





XX 











IUS 


2 

















AX H 








与 mtsleepEpy 类 似 candypy， 又 是 一 个 使 





























所 有 资源 都 已 经 消费 完 。 计 数 器 的 值 不 能 小 于 0， 因 此 这 个 调 
加 之 前 被 阻塞 。 通 过 传 入 非 阻 塞 的 标志 False， 让 调用 不 再 阻塞 ， 而 在 应 当 阻 塞 的 时 候 返 














j， 并 在 调 








《如 果 脚 本 从 命令 行 执 行 )， 退 出 函数 的 注册 ， 








] 于 随机 给 出 正 偏差 ,使 得 消费 者 真 
FE 产 者 放 入 机 器 的 更 多 (否则 ,代码 将 永远 不 会 进入 消费 者 


J 2to3 工具 生成 可 运行 的 Python 3 版 本 的 例 
重 命 名 为 candy3.py。 将 把 这 次 移植 作为 一 个 练习 留 给 读者 来 完成 。 











有 只 演示 了 threading 模块 的 两 个 同步 原 语 ， 还 有 很 多 同步 原 语 需要 你 去 探索 。 不 过 ， 


























虽然 使 用 它们 来 构建 你 


请 记 住 它们 只 是 原 语 。 H 











A GT ZEE E ENR BG 

















ES 


十 构 没 有 问题 ， 但 
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是 要 了 解 Python 标准 库 中 也 包含 了 一 个 实现 : Queue 对 象 。 


核心 提示 : 进行 调试 

在 茶 种 情况 下 , 你 可 能 需要 调试 一 个 使 用 了 信号 量 的 脚本 , 此 时 你 可 能 需要 知道 在 任 
意 给 定时 刻 信号 量 计数 器 的 精确 值 。 在 本 章 结尾 的 一 个 练习 中 ， 你 将 为 candy.py 实现 一 个 
显示 计数 器 值 的 解决 方案 , 或 许可 以 将 其 称 为 candydebug.py。 为 了 做 到 这 一 点 ， 需 要 查阅 
threading.py 的 源码 (可 能 需要 查阅 Python 2 和 Python 3 两 个 版 本 ). 

你 会 发 现 threading 模块 的 同步 原 语 并 不 是 类 名 ， 即 便 它 们 使 用 了 驼峰 式 拼写 方法 ， 
看 起 来 像 是 类 名 。 实 际 上 ， 它 们 是 仅 有 一 行 的 函数 ， 用 来 实例 化 你 认为 的 那个 类 的 对 象 。 
这 里 有 两 个 问题 需要 考虑 : 其 一 ， 你 不 能 对 它们 子 类 化 ( 因为 它们 是 函数 ); 其 二 ， 变 量 
名 在 2XxX 和 3.Xx 版 本 间 发 生 了 改变 。 

如 果 这 个 对 象 可 以 给 你 整洁 /简单 地 访问 计数 器 的 方法 ,整个 问题 就 可 以 避免 了 , 但 实际 上 
并 没有 。 如 前 所 述 , 计数 器 的 值 只 是 类 的 一 个 属性 ， 所 以 可 以 直接 访问 它 , 这 个 变量 名 从 Python 
2 版 本 的 self. value， 即 self Semaphore _value， 变 成 了 Python 3 版 本 的 self. value. 

对 于 开发 者 而 言 ， 最 简洁 的 API (至 少 我 们 的 意见 ) 是 继承 threading._BoundedSemaphore 
类 ， 并 实现 一 个 _len_0 〇 方法 ， 不 过 要 注意 ,如 果 你 计划 对 2.x 和 3.x 版 本 都 支持 ， 还 是 需 
要 使 用 刚才 讨论 过 的 那个 正确 的 计数 器 值 。 





48 生产 者 -消费 者 问题 和 Queue/queue 模块 


最 后 一 个 例子 演示 了 生产 者 -消费 者 模型 这 个 场景 。 在 这 个 场景 下 ， 商 品 或 服务 的 生产 者 
生产 商品 ， 然 后 将 其 放 到 类 似 队 列 的 数据 结构 中 。 生 产 商品 的 时 间 是 不 确定 的 ， 同 样 消 费 者 
消费 生产 者 生产 的 商品 的 时 间 也 是 不 确定 的 。 

我 们 使 用 Queue 模块 (Python 2.x 版 本 ， 在 Python 3.x 版 本 中 重 命 名 为 queue) 来 提供 线 
程 间 通信 的 机 制 ， 从 而 让 线程 之 间 可 以 互相 分 享 数据 。 具 体 而 言 ， 就 是 创建 一 个 队列 ， 让 生 
产 者 (线程 ) 在 其 中 放 入 新 的 商品 ， 而 消费 者 线程) 消费 这 些 商 品 。 表 4-5 列举 了 这 个 模 
块 中 的 一 些 属性 。 
















































































































































































表 4-5 Queue/queue 模块 常用 属性 




















属 性 Hoo ik 
Queue/queue 模块 的 类 
Queue(maxsize=0) 创建 一 个 先入 先 出 队列 。 如 果 给 定 最 大 值 , 则 在 队列 没有 空间 时 阻塞 ; 否则 ( 没 
有 指定 最 大 值 )， 为 无 限 队列 
LifoQueue(maxsize=0) 创建 一 个 后 入 先 出 队列 。 如 果 给 定 最 大 值 ， 则 在 队列 没有 空间 时 阻塞 ;否则 ( 没 
有 指定 最 大 值 )， 为 无 限 队列 
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(BER) 
E 性 jd X 
PriorityQueue(maxsize=0) 创建 一 个 优先 级 队列 。 如 果 给 定 最 大 值 ， 则 在 队列 没有 空间 时 阻塞 否则 ( 没 
有 指定 最 大 值 ) ,为 无 限 队列 
Queue/queue 异常 
Empty 当 对 空 队列 调用 get*0 方 法 时 抛 出 异常 
Full 当 对 已 满 的 队列 调用 put*0 方 法 时 抛 出 异常 
Queue/queue 对 象 方法 
qsize () 返回 队列 大 小 (由 于 返回 时 队列 大 小 可 能 被 其 他 线程 修改 , 所 以 该 值 为 近似 值 ) 
empty() 如 果 队 列 为 室 ， 则 返回 True; 否则， 返回 False 
fullo 如 果 队 列 已 满 ， 则 返回 True; 否则， 返回 False 
put (item, block=Ture, timeout=None) 将 item 放 入 队列 。 如 果 block 为 True (默认 ) H. timeout 为 None， 则 在 有 可 


























空间 之 前 阻塞 ; 如果 timeout 为 正 值 , 则 最 多 阻塞 timeout $; WER piock 为 False， 














































































































则 抛 出 Empty 异常 

put. nowait(item) 和 put(item, False) 相 同 

get (block=True, timeout=None) oo 中 取得 元 素 。 如 果 给 定 了 block 〈 非 0)， 则 一 直 阻 塞 到 有 可 用 的 元 素 
为 目 

get nowait() 和 get(False) 相 同 

task done() 于 表示 队列 中 的 某 个 元 素 已 执行 完成 ， 该 方法 会 被 下 面 的 join() 使 

joinQ 在 队列 中 所 有 元 素 执行 完毕 并 调用 上 面 的 task_doneO 信 号 之 前 ， 保 持 阻塞 
































我 们 将 使 用 示例 4-12 Cprodcons.py) 来 演示 生产 者 -消费 者 Queue/queue。 下 面 是 这 个 脚 
本 某 次 执行 的 输出 。 


$ prodcons.py 





Starting writer at: Sun Jun 18 20:27:07 2006 
producing object for Q... size now 1 
Starting reader at: Sun Jun 18 20:27:07 2006 
consumed object from Q... size now 0 
producing object for Q... size now 1 
consumed object from Q... size now 0 
producing object for Q... size now 1 
producing object for Q... size now 2 
producing object for Q... size now 3 
consumed object from Q... size now 2 
consumed object from Q... size now 1 
writer finished at: Sun Jun 18 20:27:17 2006 
consumed object from Q... size now 0 
reader finished at: Sun Jun 18 20:27:25 2006 


all DONE 
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示例 4-12 生产 者 -消费 者 问题 (prodcons.py) 


该 生产 者 -消费 者 问题 的 实现 使 用 了 Queue 对 象 ， 以 及 随机 生产 (消费 ) 的 商品 的 数量 。 生 产 者 和 消费 者 独立 且 并 
发 地 执行 线程 。 


















































#!/usr/bin/env python 


from random import randint 
from time import sleep 

from Queue import Queue 

from myThread import MyThread 


def writeQ(queue): 

print 'producing object for Q...', 
10 queue.put('xxx', 1) 
11 print "size now", queue.qsize(Q 


SO O06 — Ov tA 4 UC P — 


12 

13 def readQ(queue): 

14 val = queue.get(1) 

15 print 'consumed object from Q... size now', \ 
16 queue.qsize() 

17 

18 def writer(queue, loops): 

19 for i in range(loops): 
20 writeQ(queue) 

21 sleep(randint(1, 3)) 
22 

23 def reader(queue, loops): 

24 for i in range(loops): 
25 readQ(queue) 

26 sleep(randint(2, 5)) 
27 


28 funcs = [writer, reader] 
29 nfuncs = range(len(funcs)) 


30 

31 def main(0) : 

32 nloops = randint(2, 5) 

33 q = Queue(32) 

34 

35 threads - [] 

36 for i in nfuncs: 

37 t = MyThread(funcs[i], (q, nloops), 
38 funcs[i]. name ) 
39 threads.append(t) 

40 

4l for i in nfuncs: 

42 threads[i].start() 

43 

44 for i in nfuncs: 

45 threads[i].joinO 

46 

47 print 'all DONE' 

48 

49 df name == ' main ': 





50 main() 
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如 你 所 见 ， 生 产 者 和 消费 者 并 不 需要 轮流 执行 。( 感 谢 随机 数 !) 严格 来 说 ， 现 实生 活 通 
常 都 是 随机 和 不 确定 的 。 

逐 行 解释 

第 1~6 47 

在 本 模块 中 ， 使 用 了 Queue.Queue 对 象 ， 以 及 之 前 给 出 的 myThread.MyThread 线程 类 。 
另外 还 使 用 了 random.randintO 以 使 生产 和 消费 的 数量 有 所 不 同 〈 注 意 ，random.randint0) 与 
random.randrange() 类 似 ， 不 过 它 会 包括 其 上 限 值 )。 

第 8 一 16 行 

writeQO 和 readQ0 函 数 分 别 用 于 将 一 个 对 象 〈 例 如 ， 我 们 这 里 使 用 的 字符 串 'xxx" ) 放 入 
队列 中 和 消费 队列 中 的 一 个 对 象 。 注 意 ， 我 们 每 次 只 会 生产 或 读 取 一 个 对 象 。 

第 18 一 26 行 

writer() 将 作为 单个 线程 运行 ， 其 目的 只 有 一 个 : 向 队列 中 放 入 一 个 对 象 ， 等 待 片 刻 ， 然 
后 重复 上 述 步骤 ， 直 至 达到 每 次 脚本 执行 时 随机 生成 的 次 数 为 止 。reader() 与 之 类 似 ， 只 不 过 
变 成 了 消耗 对 象 。 

你 会 注意 到 ，writer 睡眠 的 随机 秒 数 通常 比 reader 的 要 短 。 这 是 为 了 阻碍 reader 从 空 队 
列 中 获取 对 象 。 通 过 给 writer 一 个 更 短 的 等 候 时 间 ， 使 得 轮 到 reader 时 ， 已 存在 可 消费 对 象 
的 可 能 性 更 大 。 

第 28 一 29 ft 

这 两 行 用 于 设置 派生 和 执行 的 线程 总 数 。 

第 31—47 AT 

最 后 是 main() 函 数 ， 该 函数 和 本 章 中 其 他 脚本 的 main0 函 数 都 非常 相似 。 这 里 创建 合适 
的 线程 并 让 它们 执行 ， 当 两 个 线程 都 执行 完毕 后 结束 。 

从 本 例 中 可 以 得 出 , 对 于 一 个 要 执行 多 个 任务 的 程序 , 可 以 让 每 个 任务 使 用 单独 的 线程 。 
相 比 于 使 用 单线 程 程序 完成 所 有 任务 ， 这 种 程序 设计 方式 更 加 整洁 。 

本 章 前 述 了 单线 程 进 程 是 如 何 限制 应 用 的 性 能 的 。 尤 其 是 对 于 那些 任务 执行 顺序 存在 着 
独立 性 、 不 确定 性 以 及 非 因果 性 的 程序 而 言 ， 把 多 个 任务 分 配 到 不 同 线程 执行 对 性 能 的 改善 
会 非常 大 。 由 于 线程 的 开销 以 及 Python 解释 器 是 单线 程 应 用 这 个 事实 ， 并 不 是 所 有 应 用 都 可 
以 从 多 线程 中 获 益 , 不 过 现在 你 已 经 了 解 到 了 Python 多 线程 的 功能 ， 你 可 以 在 适当 的 时 候 使 
该 工具 来 发 挥 它 的 优势 。 


49 ”线程 的 替代 方案 


在 开始 编写 多 线程 应 用 之 前 ， 先 做 一 个 快速 回顾 :通常 来 说 ， 多 线程 是 一 个 好 东西 。 不 


















































































































































































































































































































































































































































































































































HF Python 的 GIL 的 限制 ， 多 线程 更 




















适合 





























过 
许 更 多 的 并 发 )， 
需要 使 用 多 进程 ， 


而 不 是 计算 密集 型 应 用 。 
























































4X 5 


将 不 再 














以 便 让 CPU BR 
进行 详细 介绍 (这 个 主题 内 
Language Fundamentals 的 “执行 环境 ”章节 











对 了 
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VO 密集 型 应 用 (VO 释放 了 GL, MAUA 



































他 





内 核 来 执行 。 





已 经 











模块 的 主要 替代 品 包括 以 下 几 个 。 
4.9.1 subprocess 模块 
































这 是 派生 进程 的 主要 替代 方案 , 可 以 单 纪 









































地 执行 人 有 





stderr) 进行 进程 间 通 信 。 该 模块 自 Python 2.4 版 本 起 引入 。 





4.9.2 multiprocessing 模块 


该 模块 自 Python 2.6 MASA, fbl 
醒 块 非常 相似 。 该 模块 同样 也 包括 在 共享 任务 的 进程 问 传输 数据 的 多 和 








4.9.3 concurrent.futures 模块 
这 是 一 个 新 的 高 级 库 ， 





























同步 和 线程 /进程 的 管理 了 。 



































务 ， 然 后 整理 结果 。 该 模块 


版 本 ， 其 网 世 


使 
































EJ http://code.google.com/p/pythonfutures . 
日 该 模块 重 写 后 bookrank3.py 会 是 什么 样子 呢 ? 假定 代码 的 其 他 部 分 保持 不 变 ， 下 面 
的 代码 是 新 模块 的 导入 以 及 对 _main0) 函 数 的 修改 。 


F 为 多 核 或 多 CPU 派生 进程 ， 其 接口 


























它 只 在 “任务 ”级 别 进行 操作 ， 也 就 是 说 ， 你 不 再 
你 只 需要 指定 一 个 给 定 了 “worker” 数 量 的 线程 /进程 池 ， 
FH Python 3.2 REEE 


后 一 种 情况 而 言 ， 为 了 实现 更 好 的 并 行 性 ,你 


在 Core Python Programming 或 Core Python 
有 所 涵盖 ), 对 于 多 线程 或 多 进程 而 言 , threading 











E 务 , 或 者 通过 标准 文件 (stdin, stdout, 




















与 threading 











方式 。 

















需要 过 分 关注 
提交 任 
































入 ， 不 过 有 一 个 Python 2.6+ 可 使 用 的 移植 








from concurrent.futures import ThreadPoolExecutor 


def 





.main(): 
print('At', 


ctime(), 


"on Amazon...') 


with ThreadPoolExecutor(3) as executor: 


for isbn in ISBNs: 


executor.submit( showRanking, isbn) 


print('all DONE at:', 
































ctime()) 


传递 给 concurrent.futures.ThreadPoolExecutor 的 参数 是 线程 池 的 大 小 , 在 这 个 应 用 里 就 是 
指 要 查阅 排名 的 3 本 书 。 当 然 ， 这 是 个 IO 密集 型 应 
集 型 应 用 而 言 ， 可 以 使 月 
































J, K% 





H concurrent.futures.ProcessPoolExecutor 来 代替 。 






























































线程 更 有 用 。 而 对 于 计算 密 





























当 我 们 得 到 执行 器 (无论 线 程 还 是 进程 ) 











JEN submit0 方 法 ， 来 执行 之 前 需要 派 和 4 




















之 后 ， 它 负责 调度 任务 和 整理 结果 ， 就 可 以 调 
线程 才能 运行 的 那些 操作 了 。 
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如 果 我 们 做 一 个 到 Python 3 的 完全 移植 ,方法 是 将 字符 串 格式 化 操作 符 蔡 换 为 strformatO 





方法 ,自由 利用 with 

















语句 , 并 使 用 执行 器 的 map() 方 法 ,那么 我 们 完全 可 以 删除 showRankingO 








函数 并 将 其 功能 混入 _main0 函 数 中 。 示 例 4-13 的 bookrank3CE py 是 该 脚本 的 最 终 版 本 。 


示例 4-13 


使 J concu 




















#!/u 


from 
from 
from 
from 


REGE 
AMZN 
ISBN 


D O6 -) 0D Und bK— 


=s 


N 


d 


20 def 


28 if 


高 级 任务 管理 (bookrank3CF.py) 


rrent.futures 模块 的 图 书 排名 screenscraper。 

















sr/bin/env python 


concurrent.futures import ThreadPoolExecutor 
re import compile 

time import ctime 

urllib.request import urlopen as uopen 


X = compile(b'#([\d,]+) in Books ') 

= 'http://amazon.com/dp/' 

s={ 

'0132269937': 'Core Python Programming’, 
'0132356139': “Python Web Development with Django’, 
'0137143419': “Python Fundamentals’, 


getRanking(isbn): 
with uopen('{0}{1}'.format(AMZN, isbn)) as page: 
return str(REGEX.findall(page.read())[0], 'utf-8') 


.mainQ: 
print('At', ctimeQ), ‘on Amazon...') 
with ThreadPoolExecutor(3) as executor: 
for isbn, ranking in zipC 
ISBNs, executor.map(getRanking, ISBNs)): 
print('- %r ranked %s' % CISBNs[isbn], ranking) 
print('all DONE at:', ctime()) 


name == main 





逐 行 解释 


& 1—14 4t 


main() 


除了 新 的 import 语句 以 外 ， 该 脚本 的 前 半 部 分 都 和 本 章 之 前 的 bookrank3.py 相同 。 


第 16—18 íF 




















新 的 getRankingO PA Uf T with 语句 以 及 str.format()。 也 可 以 对 bookrank.py 进行 相同 
的 修改 ， 因 为 这 些 功 能 在 Python 2.6+ 版 本 上 都 是 可 用 的 《它们 不 只 用 于 3.x 版 本 )。 


第 20 一 26 行 


















































在 前 面 的 例子 中 ， 使 用 了 executorsubmit0 来 派生 作业 。 这 里 使 用 executormapO 进 行 轻 
微 的 调整 ， 从 而 将 _showRankingO 函 数 的 功能 合并 进来 ， 然 后 将 该 函数 从 代码 中 完全 删除 。 
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输出 结果 与 之 前 看 到 的 基本 一 致 。 


$ Python3 bookrank3CF.py 

At Wed Apr 6 00:21:50 2011 on Amazon... 

- 'Core Python Programming' ranked 43,992 
- 'Python Fundamentals' ranked 1,018,454 


- 'Python Web Development with Django' ranked 502,566 
all DONE at: Wed Apr 6 00:21:55 2011 


可 以 在 以 下 链接 中 获取 到 














更 多 关于 concurrent.futures 模块 的 信息 。 





e — http://docs.python.org/dev/py3k/library/concurrent.futures.html 


e —http://code.google.com/p/pythonfutures/ 


e http//www.python.org/dev/peps/pep-3148/ 


下 一 节 将 对 上 述 这 些 选择 以 及 其 他 与 线程 相关 的 模块 和 包 进 行 总 结 。 




















4.10 ”相关 模块 


K 4-6 列 出 了 


























ni 
HT 














多 线程 应 用 














h 程 中 可 能 会 人 








到 的 一 些 模块 。 
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DA 
表 4-6 与 线程 相关 的 标准 库 模块 
模 OX fü R 

thread” 基本 的 、 低 级 别 的 线程 模块 
threading 高 级 别 的 线程 和 同步 对 象 
multiprocessing” 使 用 “threading ”接口 派生 /使 用 子 进 程 
subprocess” 完全 跳 过 线程 ， 使 用 进程 来 执行 
Queue 供 多 线程 使 用 的 同步 先入 先 出 队列 
mutex” 互 斥 对 象 





concurrent.futures^ 





异步 执行 的 高 级 别 库 





SocketServer 





(D 在 Python 3.0 F 








命名 为 _thread。 








@ 自 Python 2.6 版 本 开始 引入 。 


















































4.11 练习 


4-1 进程 和 线程 。 进 











(3) Bl Python 2.4 版 本 开始 引入 。 
@ É Python 2.6 版 本 起 不 建议 使 
© Á Python 3.2 版 本 引入 (但 是 可 以 通过 非 标 准 库 的 方式 在 2.6+ 版 本 上 使 









































> H 





创建 /管理 线程 控制 的 TCP/UDP 服务 器 





ETE Python 3.0 版 本 移 除 。 




















VY 
o 








程 和 线程 的 区 别 是 什么 ? 
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4-2 Python 线程。 在 Python 中 ， 哪 种 类 型 的 多 线程 应 用 表现 得 更 好 ，LJO 密集 型 还 是 计 
算 密集 型 ? 

4-3 RAZ. 如 果 在 多 CPU 系统 中 使 用 多 线程 , 你 认为 会 有 哪些 值得 注意 的 事情 发 生 吗 ? 
你 是 如 何 看 待 在 多 CPU 系统 中 运行 多 线程 的 ? 

44 线程 和 文件 。 
a) 创建 一 个 函数 ， 给 出 一 个 字 节 值 和 一 个 文件 名 〈 作 为 参数 或 用 户 输入 )， 然 后 显 
示 文 件 中 该 字 节 出 现 的 次 数 。 
b) 现在 假设 输入 文件 非常 大 。 该 文件 允许 有 多 个 读者 ， 现 在 请 修改 你 的 解决 方 
案 ， 创 建 多 个 线程 ， 使 每 个 线程 负责 文件 某 一 部 分 的 计数 。 最 后 将 每 个 线程 的 
数据 进行 整合 ， 提 供 正确 的 总 和 。 使 用 timeit 模块 对 单线 程 和 新 的 多 线程 方案 

进行 计时 ， 并 对 划 Ren C 

4-5 线程 、 文 件 和 正则 表达 式 。 你 有 一 个 非常 大 的 邮件 文件 ;如果 没有 (把 你 所 有 的 邮 
件 合 并 到 一 个 文本 文件 中 )。 你 的 任务 是 ， 使 用 在 本 书 之 前 章节 中 得 到 的 正则 表达 
式 用 于 识别 e-mail 地 址 和 Web 站 点 的 URL， 并 将 其 转换 为 链接 形式 保存 到 .html 
(或 .htm) 的 新 文件 中 ， 当 使 用 Web 浏览 器 打开 该 文件 时 ， 这 些 链接 应 该 是 可 以 单 
击 的 。 使 用 线程 对 这 个 大 文本 文件 的 转换 过 程 进行 分 割 , 最 后 整合 所 有 结果 到 一 个 
新 的 .html 文件 中 。 在 你 的 Web 浏览 器 中 对 结果 进行 测试 ， 以 确保 这 些 链接 确实 是 
可 以 正常 工作 的 。 

4-6 ”线程 和 网 络 。 之 前 章节 中 的 聊天 服务 应 用 需要 你 使 用 
决 方案 的 一 部 分 。 请 将 该 解决 方案 转化 为 多 线程 版 本 。 

4-7 * 线 程 和 Web 编程。 第 10 章 中 的 Crawler 应 用 是 一 个 单线 程 的 网 页 下 载 应 用 。 使 用 多 
线程 编程 将 使 其 性 能 提 到 提升 。 修 改 crawlLpy《〈 可 以 叫 它 mtcrawl.py) 以 使 用 多 个 独 
立 线 程 来 进行 网 页 下 载 。 请 确保 使 用 某 种 锁 机 制 以 防止 访问 链接 队列 时 发 生 冲突 。 

4-8 ”线程 池 。 修 改 示例 4-12 中 prodcons.py 的 代码 ， 使 其 uci 
消费 者 线程 ， 而 是 任意 数量 的 消费 者 线程 〈 线 程 池 )， 每 个 线程 都 可 以 在 任意 
时 刻 处 理 或 消费 队列 中 的 多 个 对 象 。 

4-9 文件 。 创 建 一 些 线程 来 统计 一 组 〈 可 能 很 大 的 ) 文本 文件 中 包含 多 少 行 。 可 以 选择 
要 使 用 的 线程 的 数量 。 对 比 和 单线 程 版 本 代码 执行 时 的 性 能 差异 。 提 示 : 回顾 Core 
Python Programming 或 Core Python Language Fundamentals 第 9 章 结尾 处 的 练习 。 

4-10 将 你 在 练习 4-9 中 的 解决 方案 应 用 到 你 选择 的 一 个 任务 中 ， 比 如 : 处 

一 组 邮件 ， 下 载 网 页 ， 处 理 RSS 或 Atom 源 ， 增 强 聊 天 服务 器 的 消息 处 理 能 力 ， 
arn 
4-11 同步 原 语 。 研 究 threading 模块 中 的 每 个 同步 原 语 。 描 述 它们 做 了 什么 ， 在 什么 情 
况 下 有 用 ， 然 后 为 每 个 同步 原 语 创建 可 运行 的 代码 示例 。 









































































































































































































































































































































mi 











量 级 线程 或 者 进程 来 作为 解 











































































































































































































































































































4-12 


4-13 


Pi pA 2 oJ YES RET 
移植 到 Python 3. 1E candy.py 上 运行 2to3 J 


为 candy3.py。 
threading 模块 




















。 在 








(RB IRE. TER 

















却 本 中 添加 调试 功能 。 特 别 地 ， 对 于 使 
量 的 初始 值 应 当 大 于 1)， 你 需要 知道 在 外 
candy.py 的 一 个 变 体 ， 或 许可 以 称 之 为 candydebug.py， 
f 面 的 核心 提示 中 曾 提 到 ， 你 需要 查阅 threading.py 的 源码 。 当 你 完 




















成 这 个 修改 后 ， 程 序 的 输出 将 变更 为 如 下 所 示 。 


$ python candydebug.py 
starting at: Mon Apr 4 00:24:28 2011 


THE CANDY MACHIN 
Buying candy... 
Refilling candy. 
Refilling candy. 
Buying candy... 
Buying candy... 


Refilling candy... 


Buying candy... 
Buying candy... 
Buying candy... 
Buying candy... 
Buying candy.. 


all DONE at: Mon 








E (full with 5 bars)! 


inven 


tory: 4 


.. inventory: 5 


.. full, skipping 


inven 


inven 


inven 
inven 
inven 
inven 


empty 


tory: 4 
Lory: 3 


inventory: 4 


tory: 3 
Lory: 2 
tory: 1 





tory: 0 
, skipping 


Apr 4 00:24:36 2011 


EAN {i 4-11 中 的 candy.py 脚本 。 
LH, 创建 它 的 Python 3 版 本 ， 并 命名 
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信号 量 的 应 用 (信和 号 














E 意 给 定时 刻 计数 器 的 精确 值 。 创 建 






































然后 为 其 添加 显示 计数 器 





CHAPTER 





第 5 章 GUI 编程 


GUI 的 东西 应 该 会 很 难 。 它 甚至 可 以 塑造 性 格 。 
一 一 Jim Ahlstrom, 1995 年 5 月 
(口述 于 Python Workshop ) 
本 章 内 容 : 
。 简介 : 
e Tkinter 和 Python 编程 ; 
e Tkinter 示例 ; 
。 其 他 GUI 简介 ; 
。 相关 模块 和 其 他 GUI. 

















本 章 将 对 图 形 用 户 界面 (Graphical User Interface, GUI) 编程 进行 简要 的 介绍 。 
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无 论 你 刚 


接 解 本 领域 ， 还 是 希望 学 到 更 多 相关 知识 ， 亦 或 是 想 要 看 到 Python 中 是 如 何 实现 的 ， 本 章 都 
会 正 合 你 意 。 这 短 短 的 一 章 不 可 能 展示 所 有 GUI 应 




















的 基础 ,我 们 将 主要 使 






































(“Tk interface” 的 缩写 ) 可 以 访问 Tk. 


Tk 并 不 是 最 新 和 最 好 
可 以 使 用 它 构建 能 够 运行 在 大 多 数 
E 度 的 例子 ， 然 后 是 几 个 
























































开发 的 东西 , 但 是 会 为 你 葛 定 一 个 坚实 

















JF) GUI A. Æ Python 默认 的 GUI 库 Tk, 通过 Python 的 接口 Tkinter 




































































X 
更 为 复杂 的 应 
fi 











5.1 简介 





在 开始 GUI 编程 之 前 , E 762r 2 
开始 ， 因 为 Tkinter 不 总 是 默认 安装 的 (尤其 是 当 你 E 
会 是 一 个 对 客户 端 /服务 端 架 构 的 快速 回顾 ， 该 话题 在 第 2 章 中 已 经 ; 






























































还 会 有 一 些 关 联 。 
5.1.1 Tcl、Tk 和 TKkinter 


Tkinter Æ Python 的 默认 GUI 库 。 它 基于 Tk 工具 包 , 该 工具 包 最 初 是 为 工具 命令 
Command Language, TcD 设计 的 。Tk 普及 后 ， 被 移植 到 很 多 其 他 的 脚本 语言 中 ， 包 括 Perl 





(Perl/Tk), Ruby (Ruby/Tk) 和 Python (Tkinter). 





以 及 与 系统 语言 功能 全 
质 相 当 的 GUI 应用。 
如 果 你 是 GUI 编程 新 手 ， 会 惊喜 地 发 ] 























Tkinter 可 以 提供 给 你 一 种 高 效 而 又 令 人 兴奋 的 方法 来 创建 有 趣 〈 可 能 还 很 有 月 
如 果 直 接 使 用 C/C++ 的 原生 窗 体系 统 库 进行 编程 则 会 花费 较 长 的 时 间 。 一 旦 设计 好 了 应 用 程 
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Python BRU RS UI LRA Tkinter. 3/41 13547 





























































































































结合 Tk 的 GUI 开发 的 可 移植 性 与 灵活 性 


己 从 源码 构建 Python 的 时 候 )。 接 下 来 
行 过 介绍 ， 不 过 在 这 里 














的 ， 也 没有 包含 最 强大 的 GUI 构建 模块 集 ， 但 是 它 足 够 易 用 ， 你 
F 台 下 的 GUI。 我 们 将 给 出 几 个 使 有 
全 用 其 他 工具 包 的 例子 。 当 你 完成 本 章 的 学 习 后 ， 你 将 有 能 力 构建 
3 ， 并 可 以 转 而 使 用 更 加 现代 化 的 工具 包 。 对 于 当前 大 多 数 主流 的 工具 包 ( 包 
PAM AS), Python 都 有 其 对 应 的 绑 定 或 适配器 。 











H Tkinter 的 简单 和 中 等 

















c M 2248 Tkinter 


























i& & (Tool 








[以 让 你 快速 开发 和 实现 很 多 与 商业 软件 品 



































BUE EA 















































可 以 使 用 称 为 控件 〈widget) fj 
添加 功能 使 其 真实 可 用 。 
如 果 你 是 使 用 TK 的 老子 











程 一 种 新 的 方式 。 最 重要 的 是 ， 它 提供 了 一 种 更 快速 地 构建 GUI 程序 的 原型 系统 。 此 外 还 要 





























简单 。 此 外 ， 你 还 会 发 现 使 用 Python 和 
H) BAA, mi 





















































构建 块 来 拼凑 出 你 想 要 的 东西 





， 最 后 再 














FE ， 无 论 熟 悉 的 是 Tcl 还 是 Perl， 都 会 发 现 Python 给 予 了 GUI 编 














记 住 ， 你 依然 能 够 使 用 Python 的 系统 访问 、 网 络 操作 、XML、 数 值 与 可 视 化 处 型 
访问 、 所 有 其 他 标准 库 和 第 三 方 扩 展 模 块 。 


















































E. npe 











只 要 系统 中 安装 了 Tkinter， 不 超过 15 分 钟 时 间 就 可 以 让 你 的 第 一 个 GUI 程序 运行 起 来 。 
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5.1.2 




















可 









































和 ， 则 不 会 有 错误 发 4 


题 


安装 和 使 用 Tkinter 


Tkinter 在 系统 中 不 是 默认 必须 安装 
Ik (Python 1 和 2 版 本 , 在 Python 3 FF 











E， 如 下 所 示 。 


>>> import Tkinter 


>>> 


如 果 你 的 Python 解释 器 在 编 

















>>> import Tkinter 


Traceback 
File "<stdin>", 
File "/usr/lib/pythonX.Y/lib-tk/Tkinter.py", 

import tkinter # If this fails your Python may not 


(innermost last): 


line 1, in 


be configured for Tk 


你 可 能 需要 

















件 ， 然 后 局 用 所 有 了 








的 系统 














重新 


编译 好 解释 器 后 ， 需 要 
它 就 是 旧 的 解释 器 ) 的 表现 一 样 。 


5.1.3. 客户 端 /服务 端 架 构 





Ach 











ze 

















rZ f ze Pm Hi os on 


2 章 介 














口 





环境 F 
45 





的 计算 机 上 进行 显示 (通过 窗口 
算 机 的 窗口 服务 器 








AEBS 





UE 


执行 的 程序 ， 也 称 为 GUI 应 月 
后 ， 该 架构 变 得 更 加 有 趣 。 通 常 一 个 GUI 





mportError: No module named t 


编译 Python 解释 
E 确 的 设置 ， 来 编译 
。 查 阅 README 文件 ， 以 获取 你 的 Python 版 本 多 
















































































行 应 月 

















译 时 没有 


i 的， 可 

















ul 
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kinter 











器 以 使 用 Tkinter。 这 通常 
n 





计算 的 概念 。 窗 口 系统 是 软 人 

















以 通过 在 Python 解释 器 





EMAN tkinter KE Zr Tkinter 是 否 可 月 





] Tkinter， 模 块 导 入 将 会 失败 。 


line 8, in ? 




















尝试 导入 Tkinter 模 





日 。 如 果 Tkinter 


会 涉及 编辑 Modules/Setup 文 
带 有 Tkinter 的 Python 解释 器 ; 或 者 勾 选 安装 Tk 到 你 






































个 带 有 显示 设备 〈 如 显示 器 ) 的 计算 机 ! 











.同样 地 ， 还 有 需要 客户 端 


1% Tkinter 到 系统 F 
启动 一 个 新 的 Python 解释 器 ， 否 则 ， 它 还 会 和 没有 Tkinter (实际 上 ， 





的 特定 说 明 。 





服务 器 的 另 一 个 例子 ， 它 们 运 








。 上 述 这 些 应 





服务 器 ); 但 是 在 一 些 网 络 窗 
日 的 显示 ， 例 如 UNIX ! 











需要 在 端 窗 























无 法 脱离 窗口 系统 狗 








EZIZ íT. 




















M 
口 环 ] 
HY X Window 系统 。 












































算 机 上 运行 GUI 程序， 而 在 另 一 台 机 器 上 进行 显示 。 





5.2 Tkinter 和 Python 编程 




















本 节 首 先 会 介绍 通 


的 GUI 程序 。 





























的 GUI 编程 ,然后 会 


Hm 








执行 时 ， 它 会 在 局 动 程序 











浇 中 ， 也 可 以 选择 男 一 台 计 
因此 ， 可 以 在 一 台 计 





EE 点 关注 如 何 使 用 Tkinter 及 其 组 件 创建 Python 
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5.2.1 Tkinter 模块 : 添加 Tk 到 应 用 中 


那么 为 了 让 Tkinter 成 为 应 用 的 一 部 分 ,你 需要 做 些 什 么 呢 ? 首先 , 已 经 存在 的 应 用 并 不 
是 必需 的 。 如 果 你 愿意 ， 可 以 创建 一 个 纯 GUI 程序 ， 不 过 没有 让 人 感 兴趣 的 底层 功能 的 程序 
不 会 有 什么 用 处 。 

让 GUI 程序 启动 和 运行 起 来 需要 以 下 5 个 主要 步骤 。 

1. A Tkinter 模块 (或 from Tkinter import *). 

2. 创建 一 个 顶层 窗口 对 象 ， 用 于 容纳 整个 GUI 应 用 。 

3. 在 顶层 窗口 对 象 之 上 《或 者 “其 中 ”) 构建 所 有 的 GUI 组 件 〈 及 其 功能 )。 

4. 通过 底层 的 应 用 代码 将 这 些 GUI 组 件 连接 起 来 。 

5. 进入 主事 件 循环 。 
第 一 步 是 琐碎 的 : 所 有 使 用 Tkinter 的 GUI 程序 都 必须 导入 Tkinter 模块 。 获 得 Tkinter 
的 访问 权 是 首要 步 又 (参见 5.12 节 。 


5.2.2 GUI 编程 介绍 


在 举例 之 前 , 先 简单 介绍 GUI 应 用 开发 。 这 将 为 你 今后 的 学 习 提 供 一 些 通用 的 背景 知识 。 

创建 一 个 GUI 应 用 就 像 艺 术 家 作画 一 样 。 传 统 上 ， 艺 术 家 使 用 单一 的 画布 开展 创作 。 
其 工作 方式 如 下 : 首先 会 从 一 块 干净 的 石板 开始 , 这 相当 于 用 来 构建 其 余 组 件 的 顶层 窗口 
对 象 。 可 以 将 其 想象 为 房屋 的 地 基 或 艺术 家 的 画 染 。 换 句 话 说 ,必须 在 浇灌 好 混凝土 或 搭 
建 起 画 架 之 后 ， 才 能 把 真实 的 结构 或 画布 拼装 在 上 面 。 在 Tkinter 中 ， 这 个 基础 称 为 项 层 
窗口 对 象 。 


窗口 和 控件 


在 GUI 编程 中 ， 顶 层 的 根 窗口 对 象 包含 组 成 GUI 应 用 的 所 有 小 窗口 对 象 。 它 们 可 能 是 
文字 标签 、 按 钮 、 列 表 框 等 。 这 些 独 立 的 GUI 组 件 称 为 控件 。 所 以 当 我 们 说 创建 一 个 顶层 窗 
口 时 ， 只 是 表示 需要 一 个 地 方 来 摆 放 所 有 的 控件 。 在 Python 中 ， 一 般 会 写成 如 下 语句 。 


top = Tkinter.Tk() or just Tk() with "from Tkinter import *" 


TkinterTkO 返 回 的 对 象 通常 称 为 根 窗口 ， 这 也 是 一 些 应 用 使 用 root 而 不 是 top 来 指 代 它 
的 原因 。 项 层 窗口 是 那些 在 应 用 中 独立 显示 的 部 分 。GUI 程序 中 可 以 有 多 个 顶层 窗口 ， 但 是 
其 中 只 能 有 一 个 是 根 窗口 。 可 以 选择 先 把 控件 全 部 设计 好 ， 再 添加 功能 ， 也 可 以 边 设计 控件 
能 〈 这 意味 着 上 述 步骤 中 的 第 3 步 和 第 4 步 会 混合 起 来 做 )。 

控件 可 以 独立 存在 ， 也 可 以 作为 容器 存在 。 如 果 一 个 控件 包含 其 他 控件 ， 就 可 以 将 其 认 
为 是 那些 控件 的 父 控 件 。 相 应 地 ， 如 果 一 个 控件 被 其 他 控件 包含 ， 则 将 其 认为 是 那个 控件 的 
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子 控件 ， 而 父 控件 就 是 下 一 个 直接 包围 
通常 ， 控 件 有 一 些 相 关 的 行为 ， 比 如 按 下 按钮 、 将 文本 写 入 文本 框 等 。 这 些 用 户 行为 称 
为 事件 ， 而 GUI 对 这 类 事 伯 














事件 驱动 处 理 





ER 














它 的 容器 控件 。 








站 应 称 为 回调 。 








事件 可 以 包括 按钮 按 下 《及 释放 )、 鼠 标 移 动 、 敲 击 回 车 键 等 。 一 个 GUI 应 




















结束 就 是 通过 整套 事件 体系 来 如 











最 简单 的 鼠标 移动 就 是 
顶层 窗口 的 某 处 。 如 果 你 将 鼠标 移动 到 应 
于 是 看 起 来 像 是 根据 你 的 手 移动 的 。 系统 必须 处 型 
上 的 指针 移动 。 当 释放 鼠标 时 ， 不 再 


























的 光标 上 , 
制 窗口 
状态 。 

















需要 一 些 








绑 定 到 本 地 地 址 上 一 样 。GUI 应 
这 是 布局 管理 器 (geometry manager) 的 职责 所 在 GÑ 





所 有 控件 〈 包 括 顶 层 窗 

















个 带 有 回调 



























































行 ， 直 到 出 现 GUI 事件 ，i 


























布局 管理 器 








Tk 有 3 种 布局 管理 器 来 帮助 控件 集 进行 
的 大 小 和 摆 放 位 置 ， 然 后 管理 
这 样 就 会 加 重 纺 





非常 直接 ;你 提供 控件 























所 有 控件 进行 这 些 操作 ,这 相 








成 的 。 
































必须 先 创建 所 有 的 GUI 组 从 





有 事件 需要 处 理 ， 此 时 屏幕 会 





事件 驱动 的 GUI 处 理 本 质 上 非常 适合 于 客户 端 /服务 端 架构 。 当 


启动 步骤 来 准备 核心 部 分 的 执行 ， 就 像 网 络 有 


区 动 的 。 这 种 方式 称 为 事件 驱动 处 理 。 
的 事件 的 例子 。 假 设 鼠 标 指针 正 停 在 GUI 应 用 
的 男 一 部 分 , 鼠标 移动 的 行为 会 被 复制 到 屏幕 
的 这 些 鼠 标 移 动 事件 可 以 绘 
新 恢复 闲置 的 


























从 开始 到 























启动 一 个 GUI 应 用 时 ， 





有 务 器 启动 时 必须 先 分 配套 接 字 并 将 其 
































F， 然 后 将 它们 绘制 在 屏幕 上 。 



































百 会 详细 介绍 )。 当 布局 管 





































































































第 二 种 布 
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HERREMA 








控件 填充 到 正确 的 位 置 〈 即 

















间 进 行 填充 。 这 个 处 理 很 
第 三 种 布 
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局 管理 器 是 Grid. 
Grid 会 在 它们 的 网 格 位 置 上 演 染 GUI 应 用 ， 
一 旦 Packer 确定 好 所 有 控 伯 








要 使 月 



































的 每 个 对 














口 ) 后 ，GUI 应 用 进入 其 类 似 服 务 器 的 无 限 
行 处 理 ， 然 后 再 等 待 更 多 的 事件 去 处 理 。 
定位 。 最 原始 的 一 种 称 为 Placer。 它 的 做 法 


的 ， 它 叫做 Packer， 这 个 命名 十 分 恰当 ， 
肯定 的 父 控 件 中 )， 然 后 对 于 之 后 的 每 个 控件 ,会 去 寻找 剩余 的 空 
像 是 旅行 时 往 行李 箱 中 填充 行李 的 过 程 。 


你 可 以 基于 网 格 坐标 ， 使 

















象 。 本 章 将 使 用 Packer. 











里 器 排列 好 


循环 。 这 个 循环 会 一 直 运 








器 就 会 将 其 摆 放 好 。 问 题 是 你 必须 对 
程 开发 者 的 负担 , 因为 这 些 操 作 本 应 该 是 自动 完 





因为 它 会 把 





H Grid 来 指定 GUI 控件 的 放置 。 


[的 大 小 和 对 齐 方式 ， 它 就 会 在 屏幕 上 将 其 放置 妥当 ， 




















当 所 有 控件 摆 放 好 后 ， 可 以 让 应 用 进入 前 述 的 无 限 主 循环 中 。 在 Tkinter 中 ， 代 码 如 下 








所 示 。 


Tkinter.mainloop() 


一 般 这 是 程序 运行 的 最 后 一 段 代码 。 当 3 

















入 主 循环 后 ，GUI 就 从 这 上 























有 开始 接管 程序 的 执 
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行 。 所 有 其 他 行为 都 会 通过 回调 来 处 理 ， 甚 至 包括 退出 应 用 。 当 选择 File 菜单 并 单 击 Exit 菜 
单 选 项 ， 或 者 直接 关闭 窗口 时 ， 就 会 调用 一 个 回调 函数 来 结束 这 个 GUI 应用。 


5.2.3 ”顶层 窗口 : Tkinter.Tk() 


之 前 提 到 过 所 有 主要 控件 都 是 构建 在 顶层 窗口 对 象 之 上 的 。 该 对 象 在 Tkinter 中 使 用 Tk 
类 进行 创建 ， 然 后 进行 如 下 实例 化 : 


>>> import Tkinter 































































































































































































>>> top = Tkinter.Tk() 


在 这 个 窗口 中 ， 可 以 放置 独立 ipi 也 可 以 将 多 个 组 件 拼 凑 在 一 起 来 构成 GUI 程序 。 
那么 有 哪些 种 类 的 控件 呢 ? 现在 就 介绍 这 些 Tk 控件 。 


5.2.4 Tk 控件 


在 本 书写 作 时 ， 总 共有 18 种 Tk 控件 ， 表 5-1 所 示 为 这 些 控件 的 描述 。 最 新 的 控件 有 
LabelFrame、PanedWindow 和 Spinbox, 这 些 都 是 从 Python 2.3 版 本 开始 增加 的 (通过 Tk 8.4)。 

















































































































表 5-1 Tk 控件 











































































































































































































































































































































































































js ff 描 x 
Button 与 Label 类 似 ， 但 提供 额外 的 功能 ， 如 鼠标 悬浮 、 按 下 、 释 放 以 及 键盘 活动 /事件 
Canvas 提供 绘制 形状 的 功能 (线段 、 椭 圆 、 多 边 形 、 和 矩形 )， 可 以 包含 图 像 或 位 图 
Checkbutton 一 组 选 框 ， 可 以 勾 选 其 中 的 任意 个 (与 HTML 的 checkbox 输入 类 似 ) 
Entry 单行 文本 框 ， 用 于 收集 键盘 输入 与 HTML 的 文本 输入 类 似 ) 
Frame 包含 其 他 控件 的 纯 容器 
Label 于 包含 文本 或 图 像 
LabelFrame 标签 和 框架 的 组 合 ， 拥 有 额外 的 标签 属性 
Listbox 给 用 户 显 示 一 个 选项 列表 来 进行 选择 
Menu 按 下 Menubutton 后 弹出 的 选项 列表 ， 用 户 可 以 从 中 选择 
Menubutton 于 包含 菜单 下拉、 级 联 等 ) 
Message 消息 。 与 Label 类 似 ， 不 过 可 以 显示 成 多 行 
PanedWindow 一 个 可 以 控制 其 他 控件 在 其 中 摆 放 的 容器 控件 
Radiobutton 一 组 按钮 ， 其 中 只 有 一 个 可 以 “ 按 下 ”( 与 HTML 的 radio 输入 类 似 ) 
Scale 线性 “ 滑 块 ”控件 ， 根 据 已 设 定 的 起 始 值 和 终止 值 ， 给 出 当前 设 定 的 精确 值 
Scrollbar 为 Text、Canvas、Listbox、Enter 等 支持 的 控件 提供 滚动 功能 
Spinbox Entry 和 Button 的 组 合 ， 人 允许 对 值 进行 调整 
Text 多 行文 本 框 ， 用 于 收集 (或 显示 〉 用户 输入 的 文本 与 HTML 的 textarea 类 似 ) 
Toplevel 与 Frame 类 似 ， 不 过 它 提供 了 一 个 单独 的 窗口 容器 
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我 们 将 不 会 对 Tk 控件 进行 详细 介绍 ， 因 为 已 经 有 很 多 不 错 的 文档 可 以 供 你 参阅 了 ， 比 
如 Python 主 站 上 的 Tkinter 主题 页 ， 或 大 量 印刷 资源 和 网 上 关于 TeV/TK 的 资源 (可 以 参见 附 
录 B)。 不 过 ， 后 面 会 给 出 几 个 简单 的 例子 来 帮助 你 起 步 。 















































核心 提示 : 默认 参数 是 你 的 朋友 

GUI 开发 利用 了 Python 的 默认 参数 ， 因 为 Tkinter 的 控件 中 有 很 多 默认 行为 。 除 非 你 
非常 清楚 自己 所 使 用 的 每 个 控件 的 每 个 可 用 选项 的 用 法 ,否则 最 好 还 是 只 关心 你 要 设置 的 
那些 参数 ， 而 让 系统 去 处 理 剩 下 的 参数 。 这 些 默认 值 都 是 精心 选择 出 来 的 。 即 使 没有 提供 
这 些 值 ， 也 不 用 担心 应 用 程序 在 屏幕 上 的 显示 会 有 什么 问题 。 作 为 一 条 基本 规则 ， 程 序 是 
由 一 系列 优化 后 的 默认 参数 创建 的 ， 只 有 当 你 知道 如 何 精确 定制 你 的 控件 时 ， 才 应 该 使 用 
非 默 认 值 。 


5.3 Tkinter 示例 




















现在 来 看 下 我 们 的 第 一 组 GUI 脚本 ， 其 中 的 每 个 脚本 都 会 介绍 一 个 控件 ， 并 可 能 会 展示 
一 种 使 用 控件 的 不 同方 式 。 几 个 非常 基础 的 例子 后 , 是 一 个 中 等 难度 的 示例 , 该 示例 会 与 GUI 
编程 实践 有 更 多 的 关联 性 。 
5.3.1 Label 控件 


在 示例 5-1 的 tkhellol.py 中 ， 给 出 了 Tkinter 版 本 的 “Hello World!". Ej 是 ， 它 会 展示 
Tkinter 应 用 如 何 启动 ， 并 着 重 强 调 了 Label 控件 。 
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示例 5-1 Label 控件 演示 (tkhellol.py) 


我 们 的 第 一 个 Tkinter 示例 ， 除 了 “Hello Word!” 还 能 是 什么 呢 ? 特别 是 ， 我 们 会 介绍 第 一 个 控件 : Label. 








#!/usr/bin/env python 


import Tkinter 


label = Tkinter.Label(top, text-'Hello World!') 
label.packQ 


1 
2 
3 
4 
5 top = Tkinter.TkQO 
6 
7 
8 Tkinter.mainloop() 























在 第 1 行 中 ， 创 建 了 一 个 顶层 窗口 。 接 下 来 是 Label 控件 ， 它 包含 了 那 串 久负盛名 的 字 
串 。 然 后 让 Packer 来 管理 和 显示 控件 ， 最 后 调用 mainloop0 运 行 这 个 GUI 应 用 。 图 5-1 所 
为 运行 该 GUI 应 用 后 的 结果 。 
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RUE tk L2 — (CX 
Hello World! 


UNIX (twm) Windows 














图 5-1 Tkinter 的 Label 控件 





5.3.2 Button 控件 


下 一 个 例子 (tkhello2.py) 与 第 一 个 例子 很 相似 。 不 过 ， 这 里 创建 的 控件 是 按钮 ， 而 不 
再 是 标签 。 示 例 5-2 为 其 源 代码 。 











示例 5-2 Button 控件 演示 (tkhello2.py) 


这 个 例子 和 tkhello1 .py 非常 相似 ， 除 了 这 里 创建 的 是 Button 控件 而 不 是 Label 控件 外 。 
#!/usr/bin/env python 




















1 
2 
3 import Tkinter 
4 
5 top = Tkinter.Tk() 

6 quit = Tkinter.Button(top, text-'Hello World!', 
7 

8 

9 


So 


command-top.quit) 
quit.pack() 
Tkinter.mainloop() 








一 开始 的 几 行 完全 相同 , 只 有 在 创建 Button 控件 时 有 所 区 别 。 该 按钮 有 一 个 额外 的 参数 : 
Tkinter.quit() 方 法 。 该 参数 会 给 按钮 安装 一 个 回调 函数 ， 当 按钮 被 按 下 (并 且 释 放 ) 后 ， 整 个 
程序 就 会 退出 。 最 后 两 行 是 通用 的 pack0 方 法 和 mainloop0 调 用 。 这 个 简单 的 按钮 应 用 如 图 
5-2 所 示 。 









































(e tk BENE 


Hello World! | 





UNIX Windows 














图 5-2 Tkinter 的 Button 控件 


5.3.3 Label 和 Buton 控件 


在 示例 5-3 中 ， 会 把 tkhellol.py 和 tkhello2.py 结合 到 一 起 ， 组 成 既 包含 标签 又 包含 按钮 的 
tkhello3.py 脚本 。 此 外 ， 它 还 会 使 用 更 多 的 参数 ， 而 不 只 是 满足 于 自动 生成 的 默认 值 。 

除了 控件 的 额外 参数 之 外 , 还 可 以 看 到 Packer 的 一 些 参 数 。fill 参数 告诉 Packer 让 QUIT 
按钮 占据 剩余 的 水 平 空 间 ， 而 expand 参数 则 会 引导 它 填 充 整个 水 平 可 视 空 间 , 将 按钮 拉 伸 到 
左右 窗口 边缘 。 









































176 第 1 部 分 通用 应 用 主题 








示例 5-3 Label 和 Button 控件 演示 (tkhello3.py) 


本 示例 使 用 了 Label 和 Button 控件 。 相 比 于 在 创建 控件 时 使 用 默认 参数 ， 这 里 指定 了 几 个 额外 的 参数 ， 用 于 学 
习 Button 控件 更 多 的 知识 及 其 配置 方法 。 















































= 
































#!/usr/bin/env python 


l 

2 

3 import Tkinter 

4 top = Tkinter.Tk() 

5 

6 hello = Tkinter.Label(top, text-'Hello World!') 
7  hello.packQ 

8 

9 quit = Tkinter.Button(top, text-'QUIT', 

10 command-top.quit, bg='red', fg='white') 
11 quit.pack(fill=Tkinter.X, expand=1) 

12 


13 Tkinter.mainloop() 











如 图 5-3 所 示 ， 在 Packer 没有 收 到 其 他 指示 时 ， 所 有 控件 都 是 垂直 排列 的 〈《 自 上 而 下 依 
次 排列 )。 如 果 想 要 水 平 布局 则 需要 创建 一 个 新 的 Frame 对 象 来 添加 按钮 。 该 框架 将 作为 单 
个 子 对 象 来 代替 父 对 象 的 位 置 〈《 参 见 5.3.6 节 示 例 5-6 中 listdirpy 模块 的 按钮 )。 


























Hello World! 


UNIX Windows 

















A| 5-3 Tkinter 的 Label 和 Button 控件 


5.3.4 Label, Button 和 Scale 控件 


最 后 一 个 简单 例子 tkhello4.py 会 额外 调用 Scale 控件 。 这 里 Scale 用 于 与 Label 控件 进行 
交互 。Scale 滑 块 是 用 来 控制 Label 控件 中 文字 字体 大 小 的 工具 。 滑 块 的 位 置 值 越 大 ， 字 体 越 
大 ; 反之 亦 然 。 示 例 5-4 为 tkhello4.py 的 代码 。 

本 脚本 的 新 功能 包括 一 个 resize0 回 调 函 数 〈 第 5~7 行 )， 该 函数 会 依附 于 Scale 控件 。 
当 Scale 控件 的 滑 块 移动 时 ， 这 个 函数 就 会 被 激活 ， 用 来 调整 Label 控件 中 的 文本 大 小 。 

此 外 ， 还 定义 了 顶层 窗口 的 大 小 为 250*150 (第 10 行 )。 本 脚本 与 之 前 3 个 脚本 的 最 后 
一 个 不 同 之 处 是 导入 Tkinter 模块 的 属性 到 命名 空间 时 使 用 的 是 from Tkinter import *。 尽 管 
因为 会 污染 命名 空间 而 不 推荐 这 种 做 法 ， 但 是 这 里 依然 如 此 使 用 的 主要 原因 是 这 个 应 用 会 涉 
及 对 Tkinter 属性 的 大 量 引 用 。 直 接 导 入 Tkinter 模块 会 造成 访问 每 个 属性 时 都 需要 使 用 其 完 
整 写法 。 而 使 用 这 种 不 推荐 的 简写 方式 虽然 付出 了 一 定 代价 ， 但 是 可 以 减少 输入 ， 并 使 得 代 
码 更 加 易 读 。 
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示例 5-4 Label, Button 和 Scale 控件 演示 (tkhello4.py) 
最 后 要 介绍 的 控件 是 Scale, 此 外 还 会 重点 了 解 控件 是 如 何 通过 回调 函数 (如 resize ()) 
Label 控件 中 的 文本 会 受到 Scale 控件 上 操作 的 影响 。 

1 #!/usr/bin/env python 























from Tkinter import * 


3 
4 
5 def resize(ev=None): 

6 label.config(font='Helvetica -%d bold' % \ 
7 scale.get()) 

8 


9 top = TkO 
10 top.geometry('250x150') 


12 label = Label(top, text-'Hello World!', 
13 font-'Helvetica -12 bold') 
l4 label.pack(fill=Y, expand-1) 


16 scale = Scale(top, from -10, to-40, 

17 orient=HORIZONTAL, command=resize) 
18 scale.set(12) 

19 scale.pack(fill=X, expand=1) 


20 

21 quit = Button(top, text-'QUIT', 

22 command-top.quit, activeforeground-'white', 
23 activebackground-' red') 

24 quit.pack() 

25 


26 mainloon() 


如 图 5-4 所 示 ， 滑 块 机 制 和 当前 的 设 定 值 都 在 窗口 的 主要 部 分 中 显示 上 


























与 其 他 控件 进行 通信 的 。 





来。 同样 ， 还 可 


以 从 图 5-4 中 看 出 ， 当 用 户 移动 滑动 条 /请 块 到 值 36 时 GUI 的 状态 。 请 注意 ， 应 用 启动 时 滑 
块 的 初始 值 设 定 为 12 (第 18 行 。 
HORE = = 


Hello World! 





Windows 








R] 








5-4 Tkinter 的 Label, Button 和 Scale 控件 
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用 应 用 
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5.3.5 (airy Aa Bl 























在 看 一 个 更 复杂 的 GUI 应 用 之 前 ， 让 我 们 先 回顾 
Python Language Fundamentals 书 中 介绍 的 偏 函数 应 用 
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MPRE Python 2.5 版 本 
偏 函数 ， 可 以 通过 有 效 地 “冻结 ”那些 预先 确定 的 参数 来 缓存 函 
获得 需要 的 剩余 参数 后 ， 可 以 将 它们 解冻 ， 传 递 到 最 终 的 参数 中 ， 从 而 使 用 最 终 确 
















































































添加 进 





参数 去 调用 函数 。 
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的 对 象 )， 


O 5E 


ZN 需要 通过 使 用 li 
象 ， 并 且 许 多 调 ) 


偏 函数 最 好 的 一 点 是 它 不 只 局 限于 函数 。 偏 函数 可 
括号 即 可 ， 包 括 类 、 六 






































j 都 反复 使 用 相同 参数 




















GUI 编程 是 一 个 很 好 的 偏 函 数 用 例 





致 性 ， 而 这 种 一 致 性 来 自 于 使 ) 
有 很 多 按钮 拥 

















这 个 应 用 
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来 ， 是 函数 式 编 
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— F Core Python Programming 或 Core 
(PFA). 
系列 重要 改进 中 的 一 部 分 。 使 用 
数 参数 ， 然 后 在 运行 时 ， 当 
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j 于 可 调用 对 象 〈 任 何 包 
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的 所 有 





函数 接 





























方法 或 可 调 ) 





实例 。 对 于 有 























的 情况 ， 使 用 侦 


函数 会 非常 合适 。 


























， 因 为 你 入 
数 创建 相似 
色 和 









































将 使 用 交通 路 标 来 进行 演示 





其 根据 标 


标 











属于 标准 级 别 。 


志 类 型 进行 区 
创建 时 的 颜色 方案 。 例 如 ， 严 重 级 别 标 
MEUM ds 
“Merging Traffic" 4 “Railroad Crossing" /&] 











分 ， 比 如 严重 、 警 告 、 


有 可 能 需要 
的 对 象 时 。 我 
背景 色 。 对 于 这 和 
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j 的 参数 创建 相同 的 实例 简直 是 一 种 浪费 : 前 景色 和 




















， 在 该 应 | 








j 中 我 们 会 尝试 
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示例 5-5 : 
应 的 Tk 

















对 话 框 : 严重 /错误 、 


的 应 用 会 创建 这 些 标 


= 长 
Jù 
警告 或 通 












































是 如 何 创建 的 。 





通知 等 (就 像 


























志 是 白 底 红字 ， 


























， 当然 它们 只 是 按钮 。 当 月 


警告 级 别 标志 是 
E, “Do Not Enter” 和 “Wrong Way” Ad Jg 
p SEM. mi “Speed Limit" F “One Way" 


日 志 级 别 那样 )。 标 志 类 














很 多 可 调 
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GUI 控件 在 外 观 上 具有 某 种 一 
门 现在 要 实现 一 个 应 用 ， 在 
| 微 差别 的 按钮 ， 每 次 都 
背景 色 都 是 相同 的 ， 只 有 文本 有 





创建 文字 版 本 的 路 标 ， 并 将 





决定 了 



































BCs 





级 别 ， 





日 户 按 下 按钮 时 ， 会 弹出 相 


知 。 虽 然 这 不 够 令 人 兴奋 ， 但 仍然 能 够 说 清 这 些 按钮 


示例 5-5 ”路 标 偏 函数 GUI 应 用 〈pfaGUI2.py) 


根据 标志 


CD» UA 4 v tf — 


Oo ~ 








类 型 创建 拥有 合适 前 景色 和 背景 























色 的 路 标 。 使 

















#!/usr/bin/env python 


from 

from Tkinter import Tk, 
from 

WARN = 'warn' 

CRIT = 'crit' 

REGU = 'regu' 

SIGNS = { 


‘do not enter': CRIT, 


functools import partial as pto 


Button, X 


偏 函 数 可 以 帮助 你 “模板 化 ” 通 
































JH 


tkMessageBox import showinfo, showwarning, showerror 


的 GUI 参数 。 
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13 'railroad crossing': WARN, 

14 '55NXnspeed limit': REGU, 

15 'wrong way': CRIT, 

16 'merging traffic': WARN, 

17 'one way': REGU, 

18 } 

19 

20 critCB = lambda: showerror('Error', 'Error Button Pressed!') 
21 warnCB - lambda: showwarning('Warning', 

22 'Warning Button Pressed!') 

23 infoCB = lambda: showinfo('Info', 'Info Button Pressed!') 
24 


25 top = TkO 

26 top.title('Road Signs') 

27 Button(top, text="QUIT', command=top.quit, 
28 bg='red', fg='white').pack() 


30 MyButton = pto(Button, top) 

31 CritButton = pto(MyButton, command-critCB, bg-'white', fg-'red') 
32 WarnButton = pto(MyButton, command-warnCB, bg='goldenrod1') 

33 ReguButton = pto(MyButton, command-infoCB, bg='white') 

35 for eachSign in SIGNS: 

36 signType = SIGNS[eachSign] 

37 cmd = '%sButton(text=%r%s) .pack(fill=X, expand-True)' % ( 


38 signType.title(), eachSign, 
39 '.upperO' if signType = CRIT else '.title()') 
40 eval (cmd) 

4l 


42 top.mainloop() 


当 你 执行 这 个 应 用 时 ， 可 以 看 到 如 图 5-5 所 示 的 GUI 输出 。 












QUIT 
WRONG WAY 


DO NOT ENTER 


| 


Railroad Crossing || 


One Way : 


55 | 
Speed Limit — | 


Merging Traffic | 


图 5-5 MacOS X 的 XDarwin 下 的 路 标 偏 函数 GUI 应 用 




















逐 行 解释 


& 1—18 4 
先 在 应 用 中 导入 了 functools.partial. JUS Tkinter 属性 以 及 几 个 对 话 框 (第 1—5 13 。 
之 后 ， 根 据 类 别 定 义 了 一 些 标志 【第 7 一 18 112. 
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第 20~28 íT 

Tk 对 话 框 用 做 按钮 的 回调 函数 ， 将 在 创建 每 个 按钮 时 使 用 它们 《第 20~23 行 )。 之 后 局 
动 Tk， 设 置 标题 ， 并 创建 一 个 QUIT 按钮 〈 第 25—28 4) 。 

第 30—33 行 

这 些 行 展 示 了 偏 函数 的 魔法 。 我 们 使 用 了 两 阶 偏 函 数 。 第 一 阶 模 板 化 了 Button 类 和 根 窗 
口 top。 这 意味 着 每 次 调用 MyButton 时 ， 它 就 会 调用 Button 类 〈TkinterButton0 会 创建 一 个 
按钮 )， 并 将 top 作为 它 的 第 一 个 参数 。 我 们 将 其 冻结 为 MyButton 。 
第 二 阶 偏 函数 会 使 用 我 们 的 第 一 阶 偏 函数 ， 并 对 其 进行 模板 化 。 我 们 会 为 每 种 标志 类 型 
创建 单独 的 按钮 类 型 。 当 用 户 创建 一 个 严重 类 型 的 按钮 CritButton 时 《比如 通过 调用 
CritButton0)， 它 就 会 调用 包含 适当 的 按钮 回调 函数 、 前 景色 和 背景 色 的 MyButton， 或 者 说 
使 用 top、 回调 函数 和 颜色 这 几 个 参数 去 调用 Button 。 你 可 以 看 到 它 是 如 何 一 步 步 展开 并 最 终 
调用 到 最 底层 的 ， 如 果 没 有 偏 函数 这 个 功能 ， 这 些 调用 本 来 应 该 是 由 你 自己 执行 的 。 
WarnButton 和 ReguButton 也 会 执行 同样 的 操作 。 

第 35—42 行 

设置 好 按钮 后 , 我 们 会 根据 标志 列表 将 其 创建 出 来 。 我 们 将 使 用 一 个 Python 可 求 值 字符 
串 ， 该 字符 串 由 正确 的 按钮 名 、 传 给 按钮 标签 的 文本 参数 以 及 pack0 操 作 组 成 。 如 果 这 是 一 
个 严重 级 别 的 标志 ,我 们 会 把 所 有 字符 大 写 ; 否则 ， 按 照 标题 格式 进行 输出 。 第 39 行 代码 会 
用 到 Python 2.5 版 本 开始 引入 的 三 元 /条 件 操作 符 。 每 个 按钮 会 通过 eval0 函 数 进行 实例 化 ， 
结果 如 图 5-5 所 示 。 最 后 ， 我 们 进入 主事 件 循 环 来 启动 GUI 程序 。 

如 果 你 使 用 的 是 2.4 或 更 老 的 版 本 , 可 以 使 用 “and/or” 语 法 比较 轻松 地 蔡 代 三 元 操作 符 ， 
但 是 fnctools.partial0) 就 比较 难 移植 过 去 了 ， 所 以 还 是 推荐 使 用 2.5 或 更 新 的 版 本 来 执行 这 个 
示例 应 | jo 


5.3.6 HA Tkinter 示例 


我 们 将 使 用 一 个 更 复杂 的 脚本 来 结束 本 节 ， 即 示例 5-6 中 的 listdirpy。 这 个 应 用 是 一 个 
目录 树 遍历 工具 。 它 会 从 当前 目录 开始 ， 提 供 一 个 文件 列表 。 双 击 列 表 中 任意 其 他 目录 ， 就 
会 使 得 工具 切换 到 新 目录 中 ， 用 新 目录 中 的 文件 列表 代替 旧 文 件 列表 。 
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示例 5-6 文件 系统 遍历 GUI Clistdir.py) 

这 个 稍 高 级 的 GUI 程序 扩展 了 控件 的 使 用 ,新 增 了 列表 框 、 文 本 框 和 滚动 条 。 此 外 ,还 增加 了 鼠标 单 击 、 键 盘 按 下 、 
滚动 操作 等 回调 函数 。 

#!/usr/bin/env python 


















































import os 
from time import sleep 
from Tkinter import * 


e OU Nem 


class DirList(object): 


def 


def 


def 


. init (self, initdir=None): 

self.top = TKO 

self.label = Label(self.top, 
text-'Directory Lister v1.1') 

self.label.pack() 


self.cwd = StringVar(self.top) 


self.dirl = Label(self.top, fg-'blue', 
font=('Helvetica', 12, 'bold')) 
self.dirl.pack() 


self.dirfm = Frame(self.top) 
self.dirsb = Scrollbar(self.dirfm) 
self.dirsb.pack(side-RIGHT, fi11=Y) 
self.dirs = Listbox(self.dirfm, height-15, 
width=50, yscrollcommand-self.dirsb.set) 
self.dirs.bind('<Double-1>', self.setDirAndGo) 
self.dirsb.config(command=self.dirs.yview) 
self.dirs.pack(side-LEFT, fill-BOTH) 
self.dirfm.pack() 


self.dirn = Entry(self.top, width-50, 

textvariable=self.cwd) 
self.dirn.bind('«Return»', self.doLS) 
self.dirn.pack() 


self.bfm = Frame(self.top) 

self.clr = Button(self.bfm, text-'Clear', 
command=self.clrDir, 
activeforeground-'white', 
activebackground='blue') 

self.ls = Button(self.bfm, 
text-'List Directory', 
command=self.doLsS, 
activeforeground='white', 
activebackground='green') 

self.quit = Button(self.bfm, text='Quit', 
command=self.top.quit, 
activeforeground-'white', 
activebackground-' red') 

self.clr.pack(side=LEFT) 

self.1s.pack(side=LEFT) 

self.quit.pack(side=LEFT) 

self. bfm.pack() 


if initdir: 
self.cwd.set(os.curdir) 
self.doLS() 


clrDir(self, ev=None): 
self.cwd.set('') 


setDirAndGo(self, ev=None): 
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63 self.last - self.cwd.get() 

64 self.dirs.config(selectbackground-' red') 
65 check = self.dirs.get(self.dirs.curselection()) 
66 if not check: 

67 check = os.curdir 

68 self.cwd.set(check) 

69 self.doLSQ 

70 

71 def doLS(self, ev-None): 

72 error = '' 

73 tdir = self.cwd.get() 

74 if not tdir: tdir = os.curdir 

75 

76 if not os.path.exists(tdir): 

77 error = tdir + ': no such file' 
78 elif not os.path.isdir(tdir): 

79 error = tdir + ': not a directory' 
80 

81 if error: 

82 self.cwd.set(error) 

83 self.top.update() 

84 sleep(2) 

85 if not (hasattr(self, 'last') \ 
86 and self.last): 

87 self.last = os.curdir 

88 self.cwd.set(self.last) 

89 self.dirs.config(\ 

90 selectbackground='LightSkyBlue') 
91 self.top.update() 

92 return 

93 

94 self.cwd.set(\ 

95 "FETCHING DIRECTORY CONTENTS...') 
96 self.top.update() 

97 dirlist = os.listdir(tdir) 

98 dirlist.sort() 

99 os.chdir(tdir) 

100 self.dirl.config(text=os.getcwd()) 

101 self.dirs.delete(0, END) 

102 self.dirs.insert(END, os.curdir) 

103 self.dirs.insert(END, os.pardir) 

104 for eachFile in dirlist: 

105 self.dirs.insert(END, eachFile) 
106 self.cwd.set(os.curdir) 

107 self.dirs.config(\ 

108 selectbackground-'LightSkyBlue') 
109 


110 def mainO: 
111 d = DirList(os.curdir) 





112 mainloop() 

113 

114 if name == ' main ' 
115 main() 





在 图 5-6 F, 我 们 可 以 看 到 在 Windows 系统 中 这 个 GUI 程序 的 样子 。 而 该 应 用 在 POSIX 
系统 上 的 截图 如 图 5-7 所 示 。 
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|am/'320TMP = 
c:\windowsStemg R J 





图 5-6 Windows 下 的 目录 列表 GUI 应 用 








逐 行 解释 

第 1 一 5 行 

最 开始 的 这 几 行 包括 UNIX 启动 行 ， 以 及 对 os 模块 、time.sleep0) 函 数 和 Tkinter 模块 所 
有 属性 的 导入 。 

5$ 9~13 íf 

这 几 行 定义 了 DirList 类 的 构造 函数 和 一 个 代 应 用 的 对 象 .然后 创建 了 第 一 个 Label 控件 ， 
其 中 的 文本 是 应 用 的 主 标题 和 版 本 号 。 

FB 15—19 íF 

这 里 声明 了 Tk 的 一 个 变量 cwd， 用 于 保存 当前 所 在 的 目录 名 一 一 之 后 我 们 会 看 到 它 是 
如 何 派 上 用 场 的 。 然 后 又 创建 了 另 一 个 Label 控件 ， 用 于 显示 当前 的 目录 名 。 

Fs 21~29 íF 

这 一 部 分 定义 了 本 GUI 应 用 的 核心 部 分 Listbox 控件 dirs， 该 控件 包含 了 要 列 出 的 目录 
的 文件 列表 。Scrollbar 可 以 让 用 户 在 文件 数 超过 Listbox 的 大 小 时 能 够 移动 列表 。 上 述 这 两 个 
控件 都 包含 在 Frame 控件 中 。 通 过 使 用 Listbox 的 bind0 方 法 ，Listbox 的 列表 项 可 以 与 回调 
函数 CsetDirAndGo) 连接 起 来 。 

绑 定 意味 着 将 一 个 回调 函数 与 按键 、 鼠 标 操作 或 一 些 其 他 事件 连接 起 来 ， 当 用 户 发 起 这 
类 事件 时 ， 回 调 函数 就 会 执行 。 当 双击 Listbox 中 的 任意 条 目 时 ， 就 会 调用 setDirAndGoO FÉ 
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数 。 而 Scrollbar 通过 调用 Scrollbarconfig() 方 法 与 Listbox 连接 起 来 。 


la Ë 
tk |! 





7 












































图 5-7 UNIX 下 的 目录 列表 GUI 应 用 





$ 31—34 47 

然后 创建 了 一 个 文本 框 ， 用 户 可 以 在 其 中 输入 想 要 遍历 的 目录 名 ， 从 而 可 以 在 Listbox 
中 看 到 该 目录 中 的 文件 列表 。 这 里 给 这 个 文本 框 添加 了 一 个 回 车 键 的 绑 定 ， 这 样 用 户 除 了 可 
以 单 击 按钮 外 ， 还 可 以 散 击 回 车 键 来 更 新 文件 列表 。 我 们 之 前 在 Listbox 中 看 到 过 的 鼠标 绑 
定 也 是 同样 的 应 用 。 当 用 户 双 击 Listbox 中 的 条 目 时 ， 与 在 文本 框 中 手动 输入 目录 名 然后 单 
击 Go 按钮 有 同样 的 效果 。 

第 36—53 行 

接 下 来 ， 定 义 了 一 个 按钮 的 框架 (bfm)， 用 来 放置 3 个 按钮 : 一 个 “clear” 按 钮 〈clr)、 
一 个 “go” 按 钮 Cs) 和 一 个 “quit” 按 钮 (quit)。 每 个 按钮 在 按 下 时 都 有 其 自己 的 配置 和 下 
调 函 数 。 

第 55~57 行 

构造 函数 的 最 后 一 部 分 初始 化 GUI 程序 ， 并 以 当前 工作 目录 作为 起 始点 。 

第 59—60 íT 

clrDir0 方 法 会 清空 Tk 字符 串 变量 cwd (包含 当前 活动 目录 )。 该 变量 会 跟踪 我 们 当前 所 
处 的 目录 ， 更 重要 的 是 ， 当 发 生 错误 时 可 以 帮助 我 们 回 到 之 前 的 目录 。 此 外 ， 你 还 会 注意 到 
回调 函数 中 变量 ev 的 默认 值 是 None。 任 何 像 这 样 的 值 都 是 由 窗口 系统 传 入 的 。 它 们 在 你 的 
回调 函数 中 可 能 会 用 到 ， 也 可 能 用 不 到 。 

第 62—69 行 

setDirAndGo() 方 法 设置 要 遍历 的 目录 ， 并 通过 调用 doLSQ SCHL A He f 29 « 

































































































































































第 71—108 íf 
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iL 




















标 是 否 是 一 个 目录 ? 
DEH, MAY 






































新 目录 中 的 信 


突 
A 时 , 























蓝 色 。 





LH si ZN 


第 110—115 行 


listdirpy 的 最 后 一 段 代 码 是 这 段 代 码 的 最 主要 部 分 。 只 有 当 直 接 调 ) 


才 会 执行 。 当 
之 后 由 其 控制 


























main(0) 函 数 运行 
必用 的 执行 。 




















把 这 个 应 
NAA, KR 
RARITY © 





我 们 希望 已 经 详细 介绍 了 




















j 的 其 他 部 分 作 


























可 以 更 易于 理解 。 
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前 为 止 ，doLSO 是 整个 GUI 应 用 的 最 关键 部 分 。 已 会 进行 所 有 安全 检查 〈 比 如 ， 目 
它 是 否 存在 ?” )。 如 果 发 生 错 误 , 之 前 的 目录 就 会 重 设 为 当前 目录 。 如 果 
周 用 os.listdir() 获 取 实 际 文件 列表 并 在 Listbox 中 进行 替换 。 当 后 台 忙 于 拉 取 



































的 蓝 色 条 就 会 变 成 红色 ， 直 SI HRSG, B Xe 
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JIALAKH], main) K Zi 
时 ， 会 创建 GUI 应 用 ， 然 后 调用 mainloop0 来 启动 GUI 程序 ， 



































为 练习 留 给 读者 ， 推 
如 果 你 清晰 地 了 解 了 每 一 部 分 ， 


荐 读者 把 整个 应 用 看 成 一 系列 控件 和 函数 
那么 整个 脚本 也 就 不 再 那么 





















































编程 的 最 好 方法 是 实践 以 及 模 





tH 
pu 


仿 示 

















Python 和 Tkinter 进行 GUI 编程 的 方法 。 请 记 住 , 熟悉 Tkinter 
: 例 ! Python 的 发 行 包 中 有 很 多 可 以 供 你 学 习 的 演示 应 用 。 









































pi 


果 你 


T 


F 载 的 是 源码 包 ， 可 
代码 。 如 果 你 把 Win32 版 本 的 








取 演 示 代 码 。 后 面 的 那个 目 
BBR Tk 编程 的 书 自 


其 他 GUI 简介 





5.4 


我 们 希望 最 终 使 
包 ， 不 过 ， 








Z LH 
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IY 1. AN 
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单 的 GUI 应 
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j 一 个 独 
是 以 后 的 


这 是 

















], 这 4 个 工具 包 
扩展 )、wxPython (wxWidgets 的 Python 版 本 ) 以 及 PyGTK (GTK+ 的 Python 版 本 )。 最 后 一 
如 何在 Python 2 和 Python 3 ! 














个 例子 将 演示 
的 链接 以 及 下 载 这 些 工 具 的 地 


Tix 模块 已 经 包含 在 Python 标准 库 : 

















sr 
[en 




















央 安 装 包 可 以 下 载 )。 
本 章 中 已 经 见 过 的 那 几 种 控件 ， 
J Label 和 Button 4b, 3X8 
控件 由 一 个 文本 控件 


Python 安装 在 C:\Python2x 上 , 可 以 在 Liblig- 比 和 Libidlelib ! 


车 可 以 作为 进一步 的 参考 ， 其 ; 














以 在 Lib/lib-tk, Lib/idlelib 和 Demo/tkinter 中 找到 Tkinter 的 演示 
获 
重要 的 Tkinter 示例 应 用 : IDLE IDE 本 身 。 此 外 ， 还 有 很 
还 有 一 本 是 专门 写 Tkinter 的 。 


























包含 了 最 
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极为 丰富 


一 个 简 





立 章节 来 讲解 通用 GUI 开发 ， 因 为 Python 有 
事 了 。 作 为 代替 ， 我 们 将 使 用 4 个 流行 的 工具 包 实 现 同 
分 别 是 : Tix (Tk 接口 扩展 )、Pmw (Python MegaWidgets Tkinter 



























































使 用 Tile/Ttk。 你 可 以 在 5.5 节 找 到 获取 更 多 信息 





址 。 

















了 。 而 其 他 几 个 则 是 第 三 方 模块 , 需要 你 自行 下 载 。 














为 Pmw K Æ Tkinter 的 一 个 扩展 , 所 以 它 是 最 容易 安装 的 (只 需要 解压 到 你 的 site packages 
录 下 )。WxPython 5 PyGTK 涉及 多 个 文件 的 下 载 和 编译 《除非 选择 Win32 版 本 ， 




















有 一 j 















































工具 包 安 装 并 得 到 验证 ， 就 可 以 


和 一 组 靠近 




















。 后边 的 例子 中 不 会 





局 限于 





开始 了 
而 是 会 介绍 更 多 复杂 的 控件 。 

里 还 会 介绍 Control CHI SpinButton) 和 ComboBox. Control 
的 箭头 按钮 组 成 ， 文 本 控件 中 的 值 可 以 被 附近 的 一 组 箭头 按 
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钮 “控制 ”或 “上 下 调整 ”ComboBox 控件 通常 是 由 一 个 文本 控件 和 一 个 下 拉 选 项 菜单 组 成 
的 ， 列 表 中 当前 选 定 的 条 目 会 显示 在 文本 控件 中 。 

该 应 用 相当 基础 : 成 对 的 动物 要 移 走 ， 而 动物 的 总 数 在 2 一 12 个 之 间 。Control 控件 用 于 
跟踪 动物 总 数 ， 而 ComboBox 控件 则 包含 了 可 以 选择 的 动物 种 类 。 图 5-8 所 示 为 这 个 GUI 应 
用 启动 后 每 种 工具 包 的 显示 情况 。 需 要 记 住 ， 上 默认 情况 下 动物 的 数量 为 2 个 ， 且 没有 动物 种 
类 被 选中 。 

当 开 始 执行 这 个 应 用 后 ， 就 会 有 些 不 同 发 生 ， 图 5-9 所 示 为 使 用 Tix 工具 包 时 修改 了 几 
个 元 素 后 的 样子 。 











(Bal gtk +.py 


ANANG s 











PyGTK 

















Pmw wxPython 
图 5-8 Win32 下 使 用 不 同 GUI 工具 包 时 的 应 用 






































图 $-9 应 用 在 Tix 工具 包 下 修改 后 的 版 本 





你 可 以 在 示例 5$-7 一 示例 $-10 中 看 到 这 个 应 用 在 4 种 GUI 工具 包 下 的 代码 。 而 在 示例 5-11 
中 ， 我 们 将 使 用 Tile/Ttk《〈 同 时 包含 Python 2 和 Python 3 版 本 的 代码 ) 代替 前 面 这 4 个 例子 。 
你 会 发 现 这 些 例子 虽然 都 很 相似 ， 但 每 个 都 有 其 自己 特殊 的 实现 方式 。 此 外 ， 我 们 还 将 使 
用 .pyw 扩展 名 来 阻止 DOS 命令 行 或 终端 窗口 弹出 。 
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5.4.1 Tk 接口 扩展 (Tix) 


我 们 从 示例 5-7 的 Tix 模块 开始 。Tix 是 Tcl/Tk RUM 它 添加 了 许多 新 的 控件 











4 


























图 像 类 型 以 及 其 他 可 以 使 Tk 作为 一 个 GUI 开发 工具 包 的 命令 。 让 我 们 先 来 看 下 Python 中 是 
如 何 使 用 Tix 的 。 





可 月 





示例 5-7 Tix GUI 演示 CanimalTix.pyw) 













































































这 里 的 第 一 个 例子 使 用 了 Tix 模块 ， 该 模块 是 Python 自 带 的 。 
1 #!/usr/bin/env python 
2 
3 from Tkinter import Label, Button, END 
4 from Tix import Tk, Control, ComboBox 
5 
6 top = TkO 
7  top.tk.eval('package require Tix') 
8 
9  ]b = Label(top, 
10 text-'Animals (in pairs; min: pair, max: dozen)') 
11 lb.pack( 
12 
13 - Control(top, labels'Number:', 
14 integer-True, max-12, min-2, value-2, step-2) 
15 ct.label.config(font-'Helvetica -14 bold') 
16 ct.packQ 
17 
18 cb = ComboBox(top, label='Type:', editable-True) 
19 for animal in ('dog', 'cat', 'hamster', 'python'): 
20 cb.insert(END, animal) 
21 cb.packQ 
22 
23 qb = Button(top, text-'QUIT', 
24 command-top.quit, bg='red', fg='white') 
25 qb.packQ) 
26 
27  top.mainloopO 
逐 行 解释 
第 1~7 行 
这 些 行 是 启动 行 、 模 块 导入 以 及 基本 的 GUI 操作 。 第 7 行 会 断言 应 用 中 Tix 模块 是 
的 。 
第 8 一 27 行 





这 些 行 创建 了 所 有 的 控件 Label (第 9~11 4) ~ Control (第 13~16 f? 、ComboBox 
CB 18—21 fT). 以 及 退出 Button. (第 23—25 行 )。 这 些 控件 的 构造 函数 和 参数 都 是 相当 不 言 
自明 的 ， 不 需要 详细 解释 。 最 后 ， 我 们 在 第 27 行进 入 了 GUI 的 主事 件 循环 。 
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5.4.2 Python MegaWidgets (PMW) 





下 面 我 们 来 看 下 Python MegaWidgets〈 如 示例 5-8 所 示 )。 这 个 模块 月 























老 旧 问题 。 它 通过 在 GUI 工具 包 中 添加 一 些 更 新 式 的 控件 来 延长 Tkinter 的 生命 力 。 














示例 5-8 Pmw GUI 演示 CanimalP mw.pyw) 











第 二 个 例子 使 














了 Python 的 MegaWiqdgets 包 。 


#!/usr/bin/env python 


1 

2 

3 from Tkinter import Button, END, Label, W 

4 from Pmw import initialise, ComboBox, Counter 

3 

6 top = initialise() 

T 

8 1b = Label(top, 

9 text-'Animals (in pairs; min: pair, max: dozen)') 
10 1b.pack() 

11 

12 ct = Counter(top, labelpos-W, label text-'Number:', 
13 datatype-'integer', entryfield value-2, 

14 increment-2, entryfield_validate={'validator': 
15 'integer', 'min': 2, 'max': 12}) 


16 ct.packQ) 


'"): 


17 

18 cb = ComboBox(top, labelpos-W, label text-'Type:') 
19 for animal in ('dog', 'cat', 'hamster', ‘python 

20 cb.insert(end, animal) 

21 cb.pack() 

22 

23 qb - Button(top, text-'QUIT', 


24 command-top.quit, bg='red', fg='white') 
25 qb.pack() 


27 top.mainloopO 


日 来 解决 Tkinter 的 


Pmw 的 例子 和 Tix 的 例子 十 分 相似 ， 所 以 我 们 把 逐 行 分 析 留 给 读者 来 进行 。 差 异 最 大 的 





代码 行 是 Control 控件 的 构造 函数 : Pmw 的 Counter。 它 提供 
用 控件 构造 函数 的 关键 字 参 数 来 指定 最 小 值 和 最 大 值 ，Pmw 使 





该 值 不 会 落 在 预期 范 















































围 之 外 。 





























面向 对 象 的 方式 开始 编程 时 ， 代 码 行 数 会 有 所 增加 。 
5.4.3 wxWidgets 和 wxP ython 


wxWidgets 《以 前 称 为 wxWindows) 是 一 个 可 以 构建 图 形 用 户 应 用 的 跨 平 台 工 : 











j 更 加 现代 和 健 由 















































wxWidgets 使 用 C++ 实现 ， 并 且 由 于 它 定 义 了 一 致 、 通 用 的 API, 




















因此 可 以 在 很 多 3 





isl 
np 
n 
ra 


了 验证 输入 数据 的 方法 。 不 同 于 


J] —~* “validator” XE 














f f 





Tix 和 Pmw 都 是 Tk 与 Tkinter 的 扩展 ， 不 过 现在 我 们 要 离开 Tk 领域 ， 去 看 一 些 完全 不 


同 的 工具 包 : wxWidgets 和 GTK+。 你 会 发 现 ， 当 我 们 使 Ef] GUI 工具 包 以 
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Hi. wxWidgets 最 大 的 优点 是 它 使 用 了 每 个 平台 上 的 原生 GUI， 所 以 你 的 程序 可 以 和 其 他 桌 











面 应 用 有 相同 的 视觉 效果 。 男 一 个 特点 是 你 不 会 被 局 限于 使 用 C++ 开发 wx Widgets 应 用 ， 因 





KELA Python 和 Perl 的 接口 。 示 例 5-9 所 示 为 使 用 wxPython 的 动物 应 用 。 


示例 5-9 wxPython GUI 演示 (animalW x.pyw) 





























第 三 个 例子 使 用 了 wxPython (和 wxWiqdgets)。 请 注意 ， 这 里 将 所 有 的 控件 都 放 寿 














E 了 一 个 “ 






































此 外 ， 还 需要 注意 本 应 用 中 更 多 面向 对 象 的 本 质 。 





























#!/usr/bin/env python 


import wx 


def — init (self, parent-None, id=-1, title-''): 
wx.Frame. init (self, parent, id, title, 
size-(200, 140)) 


1 
2 
3 
4 
5 class MyFrame(wx.Frame): 
6 
7 
8 
9 top = wx.Panel (self) 


10 sizer = wx.BoxSizer(wx.VERTICAL) 

ll font = wx.Font(9, wx.SWISS, wx.NORMAL, wx.BOLD) 
12 lb = wx.StaticText(top, -1, 

13 "Animals (in pairs; min: pair, max: dozen)') 
14 sizer .Add(1b) 

15 

16 cl = wx.StaticText(top, -1, 'Number:') 

17 cl.SetFont(font) 

18 ct = wx.SpinCtrl(top, -1, '2', min-2, max-12) 
19 sizer.Add(c1) 

20 sizer.Add(ct) 

21 

22 C2 = wx.StaticText(top, -1, 'Type:') 

23 c2.SetFont(font) 

24 cb = wx.ComboBox(top, -1, '', 

25 choices-('dog', 'cat', 'hamster','python')) 
26 sizer.Add(c2) 

27 sizer.Add(cb) 

28 

29 qb = wx.Button(top, -1, "QUIT") 

30 qb.SetBackgroundColour('red') 

31 qb.SetForegroundColour('white') 

32 self.Bind(wx.EVT BUTTON, 

33 lambda e: self.Close(True), qb) 

34 sizer.Add(qb) 

95 

36 top.SetSizer(sizer) 

37 self.Layout() 

38 

39 class MyApp(wx.App): 

40 def OnInit(self): 

4l frame = MyFrame(title-"wxWidgets") 

42 frame.Show(True) 

43 self.SetTopWindow(frame) 

44 return True 

45 


46 def main(): 
47 pp = MyAppO 





sizer” 中 来 组 织 。 
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48 app.MainLoopO 
49 
50 if name == ' main ': 
51 main() 
逐 行 解释 
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这 里 实例 化 了 一 个 Frame 2$ C8 5—8 行 )， 其 中 只 包括 它 的 构造 函数 。 该 方法 的 唯一 目 
标 就 是 创建 这 些 控 件 。 在 框架 里 ， 创 建 了 一 个 Panel。 在 这 个 面板 中 ， 使 用 BoxSizer 包含 所 
有 控件 并 对 它们 进行 布局 CS 10~36 £10, 这 些 控件 包括 Label (第 12—14 4) 、SpinCtrl (第 
16—20 4) . ComboBox (#5 22—27 行 ) 和 退出 Button C 29—34 4) 。 

我 们 必须 要 手动 把 Label 添加 到 SpinCtrl 和 ComboBox 控件 中 ， 因 为 这 些 控件 并 不 会 包 
含有 标签 。 当 这 些 控件 都 创建 好 之 后 ， 把 它们 添加 到 sizer 中 ， 再 把 sizer 设置 到 面板 中 ， 然 
后 对 所 有 控件 进行 布局 。 在 第 10 行 ， 你 会 注意 到 sizer 是 垂直 布局 的 ， 这 意味 着 控件 会 自 上 
而 下 排列 。 

SpinCtrl 控件 的 一 个 缺点 是 它 不 支持 “ 步 进 ”函数 。 在 其 他 3 个 例子 中 ， 可 以 单 击 箭头 
按钮 使 其 每 次 增加 或 减少 两 个 单位 ， 但 是 对 于 这 个 控件 不 可 以 。 

第 39—514T 
应 用 类 实例 化 了 之 前 设计 的 Frame 对 象 ， 将 其 在 屏幕 上 进行 泻 染 ， 并 设置 为 应 用 的 最 上 
层 窗口 。 最 后 ， 启 动 行 实例 化 GUI 应 用 ， 并 开始 运行 。 


5.4.4 GTK+ 和 PyGTK 


最 后 是 PyGTK 版 本 ， 这 个 例子 和 wxPython GUI( 见 示例 5-10) 非常 相似 。 最 大 的 不 
同 是 只 使 用 了 一 个 类 ， 在 这 里 设置 对 象 的 前 景色 和 背景 色 的 代码 十 分 匈 长， 尤其 是 按钮 。 



















































































































































































































































































































































































示例 5-10 PyGTK GUI 演示 (animalGtk.pyw) 


最 后 一 个 示例 使 PyGTK (fll GTK+)。 和 wxPython 的 例子 相似 ， 这 个 版 本 同样 也 在 应 用 中 使 用 了 一 个 类 。 对 
比 一 下 这 些 GUI 应 用 的 相似 点 和 不 同 点 会 十 分 有 趣 。 人 允许 开发 者 相对 容易 地 切换 工具 包 并 不 令 人 十 分 惊讶 。 
#!/usr/bin/env python 




























































































import pygtk 
pygtk.require('2.0') 
import gtk 

import pango 


oo 上 mi 一 


class GTKapp(object): 
def init__(self): 
10 top = gtk.Window(gtk.WINDOW_TOPLEVEL) 
11 top.connect("delete event", gtk.main quit) 
12 top.connect("destroy", gtk.main quit) 
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13 box = gtk.VBox(False, 0) 
14 lb = gtk.Label( 
15 'Animals (in pairs; min: pair, max: dozen)') 
16 box.pack_start(1b) 
17 
18 sb = gtk.HBox(False, 0) 
19 adj = gtk.Adjustment(2, 2, 12, 2, 4, 0) 
20 sl = gtk.Label('Number:') 
21 sl.modify font( 
22 pango.FontDescription("Arial Bold 10")) 
23 sb.pack_start(s1) 
24 ct = gtk.SpinButton(adj, 0, 0) 
25 sb.pack_start(ct) 
26 box.pack_start(sb) 
27 
28 cb = gtk.HBox(False, 0) 
29 c2 = gtk.Label('Type:') 
30 cb.pack_start(c2) 
31 ce = gtk.combo_box_entry_new_text() 
32 for animal in ('dog', 'cat','hamster', 'python'): 
33 ce.append text(animal) 
34 cb.pack start(ce) 
35 box.pack start(cb) 
36 
37 qb = gtk.Button("") 
38 red = gtk.gdk.color parse('red') 
39 sty = qb.get style() 
40 for st in (gtk.STATE NORMAL, 
41 gtk.STATE_PRELIGHT, gtk.STATE ACTIVE): 
42 sty.bg[st] = red 
43 qb.set style(sty) 
44 ql = qb.child 
45 ql.set markup('«span color="white">QUIT</span>') 
46 qb.connect object("clicked", 
47 gtk.Widget.destroy, top) 
48 box.pack start(qb) 
49 top.add(box) 
50 top.show allQ 
51 
52 if name == ' main ': 
53 animal = GTKapp() 
54 gtk.main(Q 
逐 行 解释 
第 1~6 47 


我 们 导入 了 3 个 不 同 的 模块 和 包 ， 分 别 是 PyGTK、GTK fll Pango. P, Pango 是 一 个 
用 于 文本 布局 和 泻 染 的 库 ， 专 门 用 于 I18N (国际 化 )。 这 里 需要 它 是 因为 它 是 GTK+ 中 文本 
和 字体 处 理 的 核心 。 

第 8 一 50 行 

GTKapp 类 中 包含 了 本 应 用 的 所 有 控件 。 首 先 创 建 最 顶层 的 窗口 〈 通 过 窗口 管理 器 处 理 
程序 关闭 操作 )， 然 后 会 创建 一 个 垂直 方向 的 布局 (VBox)， 在 该 布局 中 包含 了 主要 的 控件 。 
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这 和 在 wxPython GUI 中 的 做 法 几乎 完全 一 样 。 






































放 到 包罗 万 象 的 VBox 中 。 





















































然而 ,为 了 让 静态 标签 和 SpinButton、ComboBoxEntry 左右 相 邻 (不 像 wxPython 例子 上 
那样 上 下 排列 )， 创 建 了 包含 标签 -控件 对 的 水 平 向 方 框 〈 第 18—35 行 )， 然 后 把 这 些 HBox 














在 创建 完 退 出 按钮 并 把 VBox 放 到 最 顶层 窗口 中 之 后 ， 要 把 所 有 内 容 演 染 到 屏幕 上 。 注 
首先 创建 一 个 带 有 空 标签 的 按钮 。 这 样 做 是 为 了 让 Label (F) 对 象 能 够 作为 按钮 的 一 




















部 分 创建 。 然 后 在 第 44~45 行 中 ， 我 们 获得 了 标签 的 访问 权 ， 并 将 其 设置 为 





色 的 文本 。 












































我 们 这 么 做 是 因为 如 果 你 直接 设置 前 景 样式 〈 比 如 在 第 40—43 行 的 循环 及 其 附加 代 













































































码 中 )， 会 造成 前 景 样式 只 会 影响 按钮 而 不 会 影响 到 标签 。 比 如 ， 如 果 设 置 前 景 样式 为 白 


色 ， 然 后 突出 显示 按钮 (通过 按 下 Tab 键 直至 该 按钮 被 选中 )， 你 会 发 现在 内 部 的 虚线 框 





中 被 选 定 的 控件 是 白色 的 ， 但 是 标签 文本 仍然 会 是 黑色 的 ， 除 非 你 按照 第 45 行 的 代码 那 
































样 使 用 markup 进行 过 修改 。 
第 52—54 41 
在 这 里 ， 创建 应 J9 并 六 入 主事 件 循环 。 


5.4.5 Tile/Ttk 






















































































自 创 建 之 初 ，Tk 库 就 有 着 民 好 的 声誉 ， 对 于 构建 GUI 工具 而 言 ， 它 是 一 个 既 灵 活 又 简单 的 

















库 和 工具 包 。 然 而 ， 在 头 十 年 之 后 ， 越 来 越 多 的 新 老 开 发 者 感觉 到 它 缺 乏 新 功能 、 





























主要 改变 和 升 








级 ， 开 发 者 会 认为 它 已 经 过 时 了 ， 跟 不 上 像 wxWidgets 和 GTK+ 这 样 更 现代 化 的 工具 包 了 。 
Tix 尝试 通过 添加 新 控件 、 图 像 类 型 和 新 命令 来 扩展 Tk， 从 而 解决 这 个 问题 。 其 中 的 一 
些 核 心 控件 甚至 使 用 了 原生 的 UI 代码 ， 使 其 与 在 同一 个 窗口 系统 中 的 其 他 应 用 看 起 来 更 相 






































似 。 但 是 ， 其 努力 仅仅 是 扩展 了 Tk 的 功能 而 已 。 






































21 世纪 前 十 年 中 期 ， 提 出 了 一 个 更 加 激进 的 方法 一 一 Tile 控件 集 。Tile 重新 实现 了 大 多 数 


























Tk 的 核心 控件 ， 同 时 还 添加 了 很 多 新 控件 。 不 仅 使 原生 代码 更 加 普遍 ， 还 引入 了 主题 引擎 。 







































































主题 控件 集 及 其 易 创建 、 导 入 和 导出 的 特点 ， 让 开发 者 “和 用 户 〉 对 应 用 
以 有 更 强 的 控制 力 ， 并 且 可 以 与 操作 系统 及 其 上 运行 的 窗口 系统 有 更 好 的 无 颖 


的 视觉 外 观 可 


结合 。Tile 的 


这 个 方面 足以 引 人 注 目 ， 以 至 于 它 与 Tk 8.5 版 本 的 核心 结合 为 Ttk。 不 同 于 替代 Tk，Ttk 控 
































件 集 是 作为 原始 的 核心 Tk 控件 集 的 辅助 而 提供 的 。 









































Tile/Ttk 在 Python 2.7 和 3.1 版 本 中 首次 亮相 。 为 了 使 用 Tk， 你 所 使 用 的 Python 版 本 需 












































要 能 够 访问 不 低 于 Tk 8.5 的 版 本 ， 当 然 只 要 Tile 已 安装 ， 近 期 的 老 版 本 同样 也 可 以 工作 。 在 














Python 2.7+ 中 ，Tile/Ttk 通过 ttk 模块 导入 ; 而 在 3.1+ 版 本 中 ， 该 模块 已 被 吸收 ; 






































可 以 通过 tkinterttk A. 














tkinter 之 下 ， 


在 示例 5-11 和 示例 5-12 中 ， 你 可 以 看 到 animalTtk.pyw 和 animalTtk3.pyw 的 代码 ， 分 别 





























对 应 于 Python 2 和 Python 3 版 本 。 无 论 使 用 Python 2 还 是 Python 3, UI 应 用 执行 后 在 屏幕 上 























的 显示 都 会 和 图 5-10 相似 。 
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示例 5-11 Tile/Ttk GUI 演示 CanimalTtk.pyw) 
使 用 Tile 工具 包 的 演示 应 用 〈 当 整合 到 Tk 8.5 后 ， 命 名 为 Ttk)。 



































#!/usr/bin/env python 


from Tkinter import Tk, Spinbox 
from ttk import Style, Label, Button, Combobox 


top = TkO 
StyleQ.configure("TButton", 
foreground='white', background-'red') 


D O06 -) OD tA dO — 


10 Label(top, 
11 text-'Animals (in pairs; min: pair, ' 


12 ‘max: dozen)').pack() 

13 Label(top, text='Number:').pack() 

14 

15 Spinbox(top, from -2, to-12, 

16 increment-2, font='Helvetica -14 bold').packQ) 
17 

18 Label(top, text-'Type:').pack() 

19 

20 Combobox(top, values-('dog', 

21 'cat', 'hamster', 'python')).pack() 

22 

23 Button(top, text-'QUIT', 

24 command-top.quit, style="TButton").pack() 
23 


26 top.mainloop() 


示例 5-12 Tile/Ttk Æ Python 3 下 的 GUI 演示 CanimalTtk3.pyw) 
Python 3 下 使 用 Tile 工具 包 的 演示 《〈 当 整合 到 Tk 8.5 后 ， 命 名 为 Ttk)。 























#!/usr/bin/env python3 


from tkinter import Tk, Spinbox 
from tkinter.ttk import Style, Label, Button, Combobox 


top = TkO 
StyleQ .configure("TButton", 
foreground='white', background='red') 


DC 上 iD 一 


10 Label(top, 
11 text='Animals (in pairs; min: pair, ' 


12 'max: dozen)').pack() 

13 Label(top, texts-'Number:').pack() 

14 

15 Spinbox(top, from_=2, to=12, 

16 increment-2, font-'Helvetica -14 bold').pack() 
17 

18 Label(top, text='Type:').pack() 

19 


20 Combobox(top, values-('dog', 
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21 'cat', 'hamster', 'python')).pack() 


23 Button(top, text-'QUIT', 


26 top.mainloop() 


Type: 


| python =| 
LL 


command=top.quit, style-"TButton").pack() 

















逐 行 解释 


第 1~4 行 








图 5-10 Tile/Ttk 下 的 动物 应 用 UI 




















Tk 核心 控件 在 Tk 8.4 版 本 中 增加 了 3 个 新 控件 ,其 中 一 个 是 本 应 用 中 用 到 的 Spinbox( 另 








外 两 个 是 LabelFrame 和 PanedWindow )。 其 余 月 
Combobox， 以 及 Style 类 (有 助 于 实现 控件 主题 )。 


第 6~8 行 
这 几 行 实例 化 了 根 窗 口 和 Style 对 象 。 








选择 使 用 。 这 有 助 于 为 控件 定义 通用 的 外 观 。 尽 
旦 是 你 无 法 直接 给 按钮 指定 单独 的 前 景色 和 背景 
该 示例 中 这 个 小 小 的 不 便 之 处 会 在 实践 中 证 明 一 
































= 











第 10~26 4r 

















KrB, Style 对 象 包含 一 些 主题 元 素 ， 可 以 供 控件 











日 到 的 控件 都 来 自 于 Tile/Ttk: Label. Button, 




















管 只 用 它 来 创建 退出 按钮 看 起 来 有 些 浪 费 ， 




















, 它 会 强制 你 以 一 种 规范 的 方式 进行 编程 。 














个 非常 有 用 的 习惯 。 








剩 下 代码 的 主体 部 分 定义 〈 并 包装 ) 了 整个 控件 集 ， 这 部 分 与 本 章 介 绍 过 的 其 他 编写 本 
一 个 定义 应 用 信息 的 标签 ;一 个 Label 和 MEA 











点 用 的 UI AARE 其 中 的 控件 包括 : 
的 组 合 ， 空 制 可 能 的 数值 范围 (及 增长 ); 














E 























tH Button. aE. 我 们 进入 GUI EMR. 

















=i} 





j 户 选择 动物 的 Label-Combobox X1; 























示例 5-12 中 使 用 Python 3 的 代码 有 着 相同 的 逐 行 解 释 。 Python 3 的 版 本 只 是 在 导入 时 有 
所 区 别 : Tkinter 在 Python 3 中 重 命 名 为 tkinter, H. ttk 模块 变 成 了 tkinter 的 子 模块 。 

















5.5 ”相关 模块 和 其 他 GUI 





Python 中 还 有 一 些 其 他 的 GUI 开发 系统 可 以 使 用 。 表 5-2 列 出 了 一 些 适当 的 模块 及 其 对 





应 的 窗口 系统 。 


第 5 章 GUI 编程 195 


表 5-2 Python 中 可 用 的 GUI 系统 

















































































































































































































GUI = "m" 

Tk 相关 模块 

Tkinter/tkinter^ TK INTERface: Python 默认 的 工具 包 
http://wiki.python.org/moin/TkInter 

Pmw Python MegaWidgets (Tkinter 扩展 ) 
http://pmw.sf.net 

Tix Tk Interface eXtension (Tk 扩展 ) 
http://tix.sf.net 

Tile/Ttk Tile/Ttk 主题 控件 集 
http://tktable.sf.net 

TkZinc(Zinc) 扩展 的 Tk 画布 类 型 (Tk 扩展 ) 
http://www.tkzinc.org 

EasyGUI(easygui) 非常 简单 且 无 事件 驱动 的 GUI (Tkinter 扩展 ) 
http://ferg.org/easygui 

TIDE«(IDE Studio) Tix 集成 开发 环境 (包含 IDE Studio 和 一 个 增强 的 Tix 标准 IDLE IDE) 
http://starship.python.net/crew/mike 

WxWidgets 相关 模块 

wxPython wxWidgets 对 Python 的 绑 定 版 本 ， 跨 平台 的 GUI 框架 (过 去 名 为 wxWindows? 
http://wxpython.org 

Boa Constructor Python IDE 和 wxPython GUI 构建 工具 
http://boa-constructor.sf.net 

PythonCard 基于 wxPython 的 桌面 应 用 GUI HETRE C HyperCard 启发 ) 
http://pythoncard.sf.net 

wxGLade 另 一 个 wxPython GUI 设计 工具 〈 受 Glade, GTK+/GNOME GUI 构建 工具 启发 ) 
http://wxglade.sf.net 

GTK+GNOME 相关 模块 

PyGTk GIMP 工具 包 (GTK+) 的 Python 封装 库 
http://pygtk.org 

GNOME-Python GNOME 桌面 和 开发 库 对 Python 的 绑 定 版 本 
http://gnome.org/start/unstable/bindings 
http://download.gnome.org/sources/gnome-python 

Glade T GTK+ 和 GNOME 的 GUI 构建 工具 
http://glade.gnome.org 

PyGUI (GUI) 跨 平台 的 “Pythonic” 式 GUI API (构建 于 Cocoa 
[Mac OS X]fll GTK+[POSIX/X11 和 Win32] 之 上 ) 
http://www.cosc.canterbury.ac.nz/~ greg/python_gui 

QUKDE 相关 模块 





PyQt 























Trolltech 开发 的 Qt GU XML/SQL C++ 工具 包 对 Python 的 绑 定 版 本 《部 分 开源 
[双重 许可 ]) 
http://riverbankcomputing.co.uk/pyqt 
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(BER) 
GUI = 描 述 

PyKDE KDE 桌面 环境 对 Python 的 绑 定 版 本 
http://riverbankcomputing.co.uk/pykde 

eric PyQt 开发 的 使 用 QScintilla 编辑 器 控件 的 Python IDE 
http://die-offenbachs.de/detlev/eric3 
http://ericide.python-hosting.com/ 

PyQtGPL Qt (Win32Cygwin mH), Sip. QScintilla, PyQt 包 
http://pythonqt.vanrietpaap.nl 

其 他 开源 GUI 工具 包 

FXPy FOX 工具 包 Chttp;//fox-toolkit.org) 对 Python 的 绑 定 版 本 
http://fxpy.sf.net 

PyFLTK (fltk) FLTK 工具 包 Chttp;/fltk.org) 对 Python 的 绑 定 版 本 
http://pyfltk.sf.net 

PyOpenGL (OpenGL) OpenGL (http://opengl.org) 对 Python 的 绑 定 版 本 
http://pyopengl.sf.net 

商业 软件 

win32ui 微软 MFC GET Python 的 Windows 扩展 ) 
http://starship.python.net/crew/mhammond/win32 

Swing Sun Microsystems Java/Swing (基于 Jython) 
http://jython.org 

GD Python 2 "F Tkinter, Python 3  tkinter. 


























可 以 在 Python wiki 站 的 GUI 编程 页 面 找到 更 多 Python 相关 的 GUI 工具 , 该 页 面 地 址 为 ; 


http://wiki.python.org/moin/GuiProgramming 。 


5.6 练习 















































































































































5-1 客户 端 /服务 器 架构 。 请 描述 窗口 服务 器 和 窗口 客户 端的 角色 。 

5-2 面向 对 象 编程 。 请 描述 父 控件 和 子 控件 的 关系 。 

5-3 Label 控件。 修改 tkhellol.py BIA, SEAL PRIN BE SUA AK “Hello World!”. 

5-4 Label 和 Button 控件 。 修 改 tkhello3.py 脚本 ， 除 了 QUIT 按钮 外 ， 再 添加 3 个 新 的 
按钮 。 按 下 这 3 个 按钮 的 任意 一 个 都 可 以 改变 文本 标签 的 内 容 , 从 而 让 标签 显示 为 
按 下 的 Button〈 控 件 ) 的 文本 。 提 示 : 你 将 需要 3 个 单独 的 处 理 程序 ， 或 者 有 预 设 
参数 的 一 个 处 理 程序 〈 实 际 上 仍然 是 3 个 函数 对 象 )。 

5-5 Label. Button 和 Radiobutton 控件 。 修改 练 习 5-4 的 解决 方案 , 使 用 3 个 Radiobutton 














来 控制 Label 文本 的 显示 。 要 求 有 两 个 按钮 :QUIT 按钮 和 update 按钮 , 当 单 击 update 
按钮 时 ， 文 本 标签 显示 为 被 选中 的 Radiobutton 项 的 文本 。 如 果 没 有 了 Radiobutton 项 











被 选中 ， 则 Label 保持 不 变 。 
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Label. Button 和 Entry 控件 。 修 改 练习 5-5 的 解决 方案 ， 将 Radiobutton 蔡 换 为 一 




















个 Entry 文本 框 ， 并 设置 其 默认 值 为 “Hello World!”( 显 示 在 Label 的 初始 化 字符 



































串 中 )。 用 户 可 以 使 用 











Label 中 更 新 文本 。 
Label 和 Entry 控件 及 Python IO。 创 建 一 个 GUI 应 月 
文本 文件 名 的 Entry 文本 框 。 打 了 












































窗口 ， 让 用 户 指 定 要 读 


增强 QUIT 按钮 。 





简单 的 文本 编辑 器 。 使 月 


串 编辑 Entry 文本 框 ， 单 击 update 按钮 后 ， 在 




















添加 

















昌之 前 练习 的 解决 方案 创建 一 个 简单 的 文本 编辑 器 。 














过 从 来 重建 文件 或 读 文件 的 方式 在 Text T2] 





， 其 中 包括 一 个 让 用 户 提供 
内容， 并 将 其 显示 在 Label 标签 中 。 
选 做 题 (SEAL): 将 Entry 文本 框 蔡 换 为 一 个 具有 FileOpen 选项 的 菜单 ， 使 其 弹出 
个 Exit 或 Quit 选项 ， 来 



























































可 以 通 

















FE 上 显示 待 























再 退出 。 








XX SUBE: 在 你 的 脚本 中 使 月 
按钮 或 沫 单项 。 拼 错 的 单词 需要 在 Text 控 们 




















示 出 来 。 


多 线程 聊天 应 用 。 之 前 章节 中 的 聊 
的 多 线程 聊天 服务 器 。 服 务 器 端 并 不 需要 GUI， 除 非 你 想 要 创建 一 个 GUI 用 于 前 
端 配置 ， 比 如 ， 端 口号 、 服 务 器 名 称 、 
多 线程 的 聊天 客户 端 , 使 月 
AO, 而 其 他 的 线程 用 于 接收 消息 并 显 
口中 包括 两 部 分 : 一 个 多 行 的 大 块 

















于 接受 用 户 输入 。 

















出 应 用 时 (要 么 使 




















F 中 使 朋 











日 拼写 检查 器 的 接口 , 添加 一 个 月 


j 户 编辑 的 文本 。 当 用 户 退 
J QUIT 按钮 要 么 Quit/Exit 菜单 项 )， 会 被 提示 是 否 保存 修改 后 


























于 文件 内 容 拼 写 检 查 的 
































天 程序 将 在 本 练习 | 














独立 的 线程 监控 ) 






































ZA He GUI。 本 章 中 使 用 不 同 工 具 包 的 示例 GUI NJ 











服务 器 的 连接 等 。 我 们 需要 创建 的 是 
] 户 输入 (并 向 服务 器 端 广播 传输 的 消 
] 户 。 客 户 端 的 前 端 GUI 应 该 在 聊天 窗 
显示 所 有 对 话 ， 以 及 一 个 小 的 文本 框 用 









































不 同 。 尽 管 不 可 能 让 它们 都 完全 相同 ， 但 请 















































二 用 GUI 构建 工具 。GUI 构建 工 

















Æ GUI NH. Mm 

















的 钩子 ， 以 便 其 行为 可 以 像 本 章 中 

















到 的 示例 应 用 那样 。 
有 哪些 GUI 构建 工具 可 以 选择 呢 ? 对 于 wxWidgets， 可 以 考虑 PythonCard、wxGlade、 
XRCed、wxFormBuilder， 或 者 Boa Constructor (已 





























不 同 的 前 景色 或 背景 色 突出 显 


完成 ， 即 创建 一 个 功能 全 面 







































































j 都 非常 相似 ， 但 又 都 有 所 
调整 它们 使 其 更 加 一 致 。 

种 助 你 通过 自动 化 生成 模板 代码 的 方式 创 
和 i 使 你 只 需要 去 解决 剩 下 的 “硬骨头”。 下 载 一 个 GUI 构建 工具 ， 














并 通过 从 对 应 的 面板 中 拖 忠 控件 的 方式 实现 动物 GUI 应 用 。 








为 这 些 控件 添加 回调 

















经 不 再 





EJ. T GTK+, PJV 
































考虑 Glade( 以 及 GtkBuilder)。 要 了 解 更 多 的 工具 , 可 以 查阅 GUI 工具 wiki SU “GUI 


Design Tools and IDEs” 部 分 ， 
































网 址 是 http://wiki.python.org/moin/GuiProgramming o 


CHAPTER 
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你 真 的 为 你 儿子 起 名 叫 Robert); 
DROP TABLE Students;-- 吗 ? 


本 章 内 容 : 

简介 ; 

Python 的 DB-API; 

对 象 关 系 映 射 CORM); 
非 关 系数 据 库 ; 
相关 文献 。 








数据 库 编程 


一 一 Randall Munroe，XKCD，2007 年 10 月 








第 6 章 数据 库 编程 






















































































本 章 会 讨论 如 何 使 用 Python 与 数据 库 进 行 通 
小 应 用 的 需求 ， 而 大 型 服务 器 或 高 数据 容量 的 应 月 
关系 数据 库 、 非 关系 数据 库 以 及 对 象 关系 映射 “ORM) 进行 介绍 。 
6.1 简介 
本 节 会 对 数据 库 的 需求 进行 讨论 ， 提 出 结构 化 查询 语言 
库 应 用 编程 接口 CAPT). 





























6.1.1 持久 化 存储 


一 些 ; 





件 等 。 


Core Python Language Fundamentals 或 Core Python Programming 的 “Files” 一 章 讨 论 了 


两 种 持久 化 存储 ， 

管理 

包括 : 

象 接口 

章 所 关注 的 内 容 。 在 这 和 

示 尽 可 能 多 的 选择 (以 及 如 何 让 其 


























在 任何 应 


昆 合 类 型 。 
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rio 文件 或 简单 的 持久 化 存储 可 以 满足 一 些 
昌 则 需要 更 加 成 熟 的 数据 库 系统 。 本 章 会 对 








(SQL)， 并 介绍 Python 的 数据 


中 ， 都 需要 持久 化 存储 。 一 般 有 3 种 基础 的 存储 机 制 : 文件、 数据 库 系 统 以 及 
这 种 混合 类 型 包括 现 有 系统 上 的 API、ORM、 文 件 管理 器 、 











电子 表格 、 配 置 文 




















种 是 使 用 普通 文件 或 Python 的 特定 文件 进行 访问 ， 另 一 种 是 使 用 数据 库 
器 (DBM) 访问 。 其 中 ，DBM 是 一 种 比较 古老 的 UNIX 持久 化 存储 机 制 ， 





= 








它 基 于 文件 ， 








*dbm. dbhash/bsddb 文件 、shelve (pickle 和 DBM 的 组 合 )， 以 及 使 用 类 似 字 典 的 对 


文件 或 创建 的 数据 存储 系统 不 适 | 



































首先 会 从 SQL 和 关系 数据 库 开 始 ， 因 


























在 Python ! 








6.1.2 数据库 基本 操作 和 SQL 











在 深入 了 解数 据 库 以 及 如 何在 Python 中 使 
果 你 已 经 有 一 些 经 验 ， 可 以 将 其 作为 复习 )， 包 括 一 些 基 础 的 数 





底层 存储 


数据 库 通常 使 月 


于 大 项 目 时 ， 需 要 转 而 使 用 数 
"情况 下 ， 你 需要 做 出 很 多 决定 。 因 此 ， 本 章 将 介 
运转 起 来 )， 以 便 你 能 够 做 出 正确 


是 持久 化 存储 ! 








为 它们 目前 依旧 


























居 库 ， 这 种 情况 正 是 本 














绍 数据 库 基础 ， 并 展 
的 决定 。 我 们 



























































的 操作 系统 文件 ， 甚 至 是 原始 的 磁盘 分 区 。 
用 户 接口 


GUI LA, 使 











昌文 件 系统 作为 基本 的 持久 化 存储 ， 它 可 以 是 普通 的 操作 系统 文件 、 专 用 



































大 多 数 数据 库 系 统 提供 了 命令 行 工具 ， 可 以 用 
j 命 令 行 客户 端 或 数据 库 客 户 端 库 ， 向 用 户 提供 更 加 便捷 















































最 流行 的 解决 方案 。 


它们 之 前 , 我 们 先 会 给 出 一 个 快速 的 介绍 (如 
居 库 概念 以 及 SQL 语句 等 。 





























HAT SQL 语句 或 查询 。 此 外 还 有 一 些 











SEE 











o 
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数据 库 


个 关系 数据 库 管 理 系统 (RDBMS) 通常 可 以 管理 多 个 数据 库 ， 比 如 销售 、 市 场 、 用 
3 支持 等 ， 都 可 以 在 同一 个 服务 端 〈 如 果 RDBMS 基于 服务 器 ， 可 以 这 样 。 不 过 一 些 简 单 
的 系统 通常 不 是 基于 服务 器 的 )。 在 本 章 将 要 看 到 的 例子 中 ，MySQL 是 一 种 基于 服务 的 
RDBMS， 因 为 它 有 一 个 服务 器 进程 始终 运行 以 等 待命 令 行 输入 ; 而 SQLite 和 Gadfly 则 不 
会 运行 服务 器 。 


组 件 


数据 库存 储 可 以 抽象 为 一 张 表 。 每 行 数据 都 有 一 些 字 段 对 应 于 数据 库 的 列 。 每 一 列 的 表 
定义 的 集合 以 及 每 个 表 的 数据 类 型 放 到 一 起 定义 了 数据 库 的 模式 (schema)。 

数据 库 可 以 创建 Ccreate) 和 删除 (drop ), 表 也 一 样 。 往 数据 库 里 添加 新 行 叫做 插入 (Cinsert ), 
修改 表 中 已 存在 的 行 叫 做 更 新 〈update)， 而 移 除 表 中 已 存在 的 行 叫 做 删除 〈delete )。 这 些 动 
作 通 常 称 为 数据 库 命 令 或 操作 。 使 用 可 选 的 条 件 请 求 获取 数据 库 中 的 行 称 为 查询 (query)。 

当 碍 询 一 个 数据 库 时 ， 可 以 一 次 性 取 回 所 有 结果 〈 行 )， 也 可 以 逐条 遍历 每 个 结果 行 。 一 
些 数据 库 使 用 游标 的 概念 来 提交 SQL 命令 、 查 询 以 及 获取 结果 , 不 管 是 一 次 性 获取 还 是 逐 行 
获取 都 可 以 使 用 该 概念 。 


SOL 


数据 库 命令 和 查询 操作 是 通过 SQL 语句 提交 给 数据 库 的 。 虽然 并 非 所 有 数据 库 都 使 用 
SQL 语句 ， 但 是 大 多 数 关 系数 据 库 使 用 。 下 面 是 一 些 SQL 命令 示例 。 请 注意 ， 大 部 分 数据 
库 都 是 不 区 分 大 小 写 的 ， 尤 其 是 针对 数据 库 命 令 而 言 。 一 般 来 说 ， 对 数据 库 关 键 字 使 用 大 
写字 母 是 最 为 广泛 接受 的 风格 。 大 多 数 命令 行程 序 需要 一 条 结尾 的 分 号 (;) 来 结束 这 条 SQL 
语句 。 

创建 数据 库 


CREATE DATABASE test; 
GRANT ALL ON test.* to user(s); 


第 一 行 创建 了 一 个 名 为 “test” 的 数据 库 , 假设 你 是 数据 库 的 管理 员 ， 第 二 行 语句 可 以 为 
指定 用 户 《 或 所 有 用 户 ) 提升 权限 ， 以 便 他 们 可 以 执行 下 述 数据 库 操 作 。 
使 用 数据 库 


USE test; 


如 果 你 已 经 登录 一 个 数据 库 系 统 ， 但 还 没有 选择 你 希望 使 用 的 数据 库 ， 这 条 简单 的 语句 
可 以 让 你 指定 一 个 数据 库 ， 用 来 执行 数据 库 操作 。 
































































































































































































































































































































































































































删除 数据 库 
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DROP DATABASE test; 


这 条 简单 的 语句 可 以 从 数据 库 中 移 除 所 有 表 和 数据 ， 并 将 其 从 系统 中 删除 。 


创建 表 

















CREATE TABLE users (login VARCHAR(8), userid INT, projid INT); 


这 条 语句 创建 一 个 新 表 ， 其 中 包含 字符 串 列 login， 以 及 两 个 整 型 列 : userid 和 projid. 


















































删除 表 

DROP TABLE users; 
这 条 简单 的 语句 可 以 删除 数据 库 中 的 一 个 表 ， 并 清空 其 中 的 所 有 数据 。 
插入 行 





INSERT INTO users VALUES('leanna', 2111, 1); 


可 以 使 用 INSERT 语句 向 数据 库 中 插入 一 个 新 行 。 需 要 指定 表 名 以 及 其 中 每 列 的 值 。 对 























更 新 行 


为 了 修改 表 ， 








UPDATE users SET projid-1 WHERE userid-311; 











于 本 例 而 言 ， 字 符 串 “leanna” 对 应 于 login 参数 ， 而 2111 和 1 分 别 对 应 于 userid 和 projid。 


UPDATE users SET projid-4 WHERE projid-2; 


















































已 经 存在 的 行 ， 需 要 使 用 UPDATE 语句 。 使 用 SET 来 确定 要 修改 的 列 ， 





























并 提供 条 们 























组 ! 








项 目 





删除 行 


来 确定 要 修改 的 行 。 在 第 一 个 例子 中 ， 
需要 改 为 4。 而 在 第 二 个 例子 中 ， 将 指定 用 户 ( 这 里 是 UID 为 311 的 用 户 ) 移 到 编号 为 机 的 



































FH, MA “project ID" CHI projid) 为 2 WHF 



































DELETE FROM users WHERE projid-$d; 
DELETE FROM users; 








为 了 删除 表 ， 

















的 行 ， 需 要 使 用 DELETE FROM 命令 ,指定 准备 删除 的 行 的 表 名 以 及 可 选 











的 条 件 。 如 果 没 有 这 个 条 件 ， 就 会 像 第 二 个 例子 一 样 ， 把 所 有 行 都 删除 了 。 
既然 你 对 数据 库 的 基本 概念 已 经 有 了 一 个 大 致 的 了 解 ， 这 就 会 使 本 章 剩余 部 分 及 其 示例 



















































































的 学 习 变 得 更 加 简单 。 如 果 你 还 需要 额外 的 帮助 ， 有 很 多 数据 库 教程 书籍 可 供 参 考 。 








6.1.3 ”数据库 和 Python 
下 面 我 们 将 学 习 Python 的 数据 库 API， 并 了 解 如 何 使 用 Python 访问 关系 数据 库 。 访 问 


数据 
式 不 







































































库 包 括 直接 通过 数据 库 接口 访问 和 使 用 ORM 访问 两 种 方式 。 其 中 使 用 ORM 访问 的 方 


需要 显 式 给 出 SQL 命令 ， 但 也 能 完成 相同 的 任务 。 
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查询 优化 、 事 务 1 
行 讨 论 ， 而 是 直接 在 Python 应 用 ， 
存储 和 获取 数据 
例 代码 的 学 习 可 以 让 你 更 加 快速 
来 ， 我 们 的 目标 就 是 
我 们 还 会 打破 











用 应 


用 主题 




















诸如 数据 库 原理 、 并 发 性 、 模 式 、 
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标准 

















库 


)。 可 以 明 
中 的 一 个 核心 组 件 。 
fey KETEN 


生 、 存 储 过 程 等 主题 都 不 在 本 书 要 讲解 的 范围 
E 章 将 介绍 如 何在 Python 框架 下 对 RDBMS i 
哪 种 方式 更 适合 导 
上 果 你 需要 将 Python 应 | 
能 够 让 你 尽快 掌握 所 有 相关 的 事情 。 
j “OY 
外 的 是 ， 在 Python 的 领域 中 ， 与 数据 库 协 同 了 


的 操 
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原子 性 、 















































使 用 。 





本 





入 。 之 后 你 可 以 决定 使 
lg. H 








能 齐备 ” 




















,到 目前 为 止 的 










































































之 内 ， 因 





















































的 Python 标准 





























库 的 模式 (尽管 我 们 的 最 初 目 
[ 作 已 经 变 成 





你 当前 的 项 
| 与 某 种 数据 库 系 统 绰 














目 或 应 用 ， 


完整 性 、 恢 复 、 比 较 复 杂 的 左 连接 、 触 发 器 、 
此 本 章 中 不 会 对 其 进 














行 
而 示 


十 合 起 


























标 是 只 使 











常 应 


























































































































开发 





内 业 生 涯 中 , 你 可 能 还 没 学 习 数 据 库 相关 的 一 些 










































































知识 ， 比 如 : 如 何 使 用 数据 库 〈 命 令 行 和 /或 GUI)， 如 何 使 用 SQL 语句 获取 数据 ， 如 何 
添加 或 更 新 数据 库 中 的 信息 等 。 如 果 Python 是 你 的 编程 工具 ， 一旦 你 向 Python 应 用 中 添 
加 了 数据 库 访 问 ， 就 会 使 很 多 麻烦 的 工作 由 Python 为 你 代劳 了 。 首 先 我 们 会 描述 什么 是 
Python 的 数据 库 API， 或 者 说 是 DB-API， 然 后 会 给 出 一 些 符合 这 一 标准 的 数据 库 接 口 的 
例子 。 

我 们 将 展示 几 个 使 用 流行 的 开源 RDBMS 的 例子 。 不 过 ， 我 们 不 会 对 开源 产品 和 商业 产 
品 之 间 的 对 比 进行 讨论 。 如 果 要 适 配 其 他 RDBMS， 使 用 方法 也 会 非常 直接 。 此 外 ， 有 一 个 
数据 库 需 要 特别 提 及 ， 这 就 是 Aaron Watter 的 Gadfly， 因 为 这 是 一 个 完全 使 用 Python 编写 的 
简单 的 RDBMS。 





它 可 以 与 关系 数据 库 的 客户 端 库 (通常 是 使 用 


所 





有 





在 Python ! 








数据 库 是 通过 适配器 的 方式 进行 访问 上 














将 会 是 本 章 中 首先 要 讨论 的 主题 。 









































图 6-1 所 示 为 编写 Python 数据 库 应 月 
6-1 中 可 以 看 出 ，DB-API 是 
























































的 结构 ， 包 括 使 



































日 和 没有 使 





连接 到 数据 库 客 户 端的 C 语言 库 的 接口 。 





的 。 适配器 是 一 个 Python 模块 ， 使 用 
C 语言 编写 的 ) 接口 相连 。 一 般 情 况 下 会 推荐 
的 Python 适配器 应 当 符合 Python 数据 库 特 殊 兴 趣 小 组 (DB-SIG〉 的 API 标准 。 适 配器 








] ORM 的 情况 。 从 























































































































Python 应 用 
Python 应 用 (少量 或 没有 SQL) 
WI A SQL) (I ASQL) 
Python ORM 
Python 数据 库 适 配器 Python 数据 库 适 配器 
RDBMS X P 3j HE RDBMS 客 户 端 库 RDBMS 客 户 端 库 
关系 数据 库 (RDBMS) 
图 6-1 应 用 与 数据 库 的 多 层 通 信 。 第 一 个 框 一 般 是 C/C++ 程序 ， 而 在 Python 中 应 用 程序 
使 用 DB-API 兼容 的 适配器 。ORM 可 以 通过 处 理 数 据 库 具体 细节 来 简化 应 用 











图 
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6.2 Python ġġ DB-API 
































从 哪里 可 以 找到 数据 库 相 关 的 接口 呢 ? 很 简单 , 只 需要 前 往 Python 官网 的 数据 库 主题 音 
分 即 可 。 在 那里 ， 你 可 以 找到 全 面 的 当前 版 本 DB-API (2.0 版 本 ) 的 链接 ， 包 括 数据 库 模 块 、 
文档 、 特 殊 兴 趣 小 组 等 。 从 一 开始 起 ，DB-API 就 被 移动 至 PEP 249 中 (PEP 248 中 的 老 版 
DB-API 1.0 标准 已 经 废弃 )。 那 么 ， DB-API 是 什么 呢 ? 

DB-API 是 阐明 一 系列 所 需 对 象 和 数据 库 访 问 机 制 的 标准 ， 它 可 以 为 不 同 的 数据 库 适 配 
器 和 底层 数据 库 系 统 提 供 一 致 性 的 访问 。 就 像 很 多 基于 社区 的 成 果 一 样 ，DB-API 也 是 强 需 
求 驱动 的 。 

在 过 去 的 日 子 里 ， 曾 有 这 样 一 种 场景 : 有 很 多 种 数据 库 ， 并 且 很 多 人 实现 了 他 们 自己 
的 数据 库 适 配器 。 就 像 做 无 用 功 一 样 。 这 些 数据 库 和 适配器 是 在 不 同 的 时 间 被 不 同 的 人 实 
现 的 ， 在 功能 上 完全 没有 一 致 性 可 言 。 但 是 ， 这 意味 着 使 用 这 些 接口 的 应 用 代码 需要 与 他 
们 选择 使 用 的 数据 库 模块 进行 定制 化 处 理 ， 接 口 的 任何 改变 都 会 导致 应 用 代码 的 变更 。 

由 此 ， 为 了 解决 Python 数据 库 连 接 问 题 的 特殊 兴趣 小 组 成 立 了 ， 并 且 撰 写 了 1.0 版 本 的 
DB-API。 该 API 为 不 同 的 关系 数据 库 提供 了 一 致 性 的 接口 , 并且 使 不 同 数据 库 间 移 植 代码 变 
得 更 加 简单 ， 通 常 只 需要 修改 几 行 代码 即 可 。 本 章 后 面 的 部 分 你 会 看 到 一 个 相关 的 示例 。 


6.2.1 模块 属性 











































































































































































































































































































































































































DB-API 标准 要 求 必 须 提供 下 文 列 出 的 功能 和 属性 ,一 个 兼容 DB-API 的 模块 必须 定义 表 
6-1 所 示 的 几 个 全 局 属性 。 
表 6-1 DB-API 模块 属性 
属 性 描述 

apilevel 需要 适配器 兼容 的 DB-API 版 本 
threadsafety 本 模块 的 线程 安全 级 别 
paramstyle 本 模块 的 SQL 语句 参数 风格 
connect() Connect() Zt 
(多 种 异常 ) (参见 表 6-4) 

数据 属性 

apilevel 








该 字符 串 ( 注 意 ， 不 是 浮 点 型 ) 指 明了 模块 需要 兼容 的 DB-API 最 高 版 本 ， 比 如 ，1.0、 
2.0 等 。 该 属性 的 默认 值 是 1.0。 
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threadsafety 





这 是 一 个 整 型 值 ， 可 选 值 如 下 。 


e Q: 
e |]: 
e 2: 


e 3: 
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最 
适度 的 线 
完整 的 线 








如 果 有 资源 需要 进行 
的 。 由 于 此 目的 ， 磁 盘 文件 和 全 局 








锁定 的 目 














不 支持 线程 安全 。 








线程 间 不 能 共享 模块 。 








小 化 线程 安全 支持 : 
安全 文 持 : 
程 安全 文 持 : 


程 





线程 
线程 间 可 以 









































作 。 查 阅 threading 模块 ， 或 回顾 


参数 风格 





那么 就 需 rf 要 诸如 





Lm, 





线程 间 可 以 共享 模块 ， 但 
fA) AY DASE Ee ER AER 
EER, EF 
自 旋 锁 













































































DB-API 支持 以 不 


行 。 该 参数 是 








参数 风格 


AN Ba Ae 


[EE 





同 的 方式 指明 如 何 将 参 
$, H 














于 指定 








变量 都 并 不 可 靠 ， 甚至 还 会 
第 4 章 ， 以 获取 如 何 使 用 锁 的 更 多 信息 。 


数 与 SQL 语句 进行 整合 











构建 查询 行 或 命令 时 使 用 也 








类 的 同步 原 语 来 达到 原 3 
干扰 到 标准 的 互 斥 操 


TE 























并 最 终 传递 给 服务 器 中 执 
蔡 代 形式 〈 见 表 6-2). 








PS As oa 








子 付 串 


表 6-2 ”数据库 参 数 风格 paramstyle 


m 


fü 


m Hi 





numeric 


数值 位 置 风格 


WHERE name=:1 





named 


命名 风格 


WHERE name=:name 





pyformat 














Python 字典 printfO 格 式 转换 





WHERE name=%(name)s 





qmark 


问号 风格 


WHERE name=? 





format 
函数 属性 
connect() FK BUH 




















ANSIC 的 printtO 格 式 转换 





WHERE name=%s 


过 Connection 对 象 访问 数据 库 。 兼 容 模块 必须 实现 connectO EE C, 1% 


数 创建 并 返回 一 个 Connection 对 象 。 表 6-3 所 示 为 connectO 的 参数 。 























可 以 使 











j 包 含 多 个 参数 的 字符 串 








参数 ， 或 者 是 使 






































(DSN) 来 传递 数据 库 连 接 信息 ， 也 可 以 按照 位 置 传递 每 个 
关键 字 参数 的 形式 传 入 。 下 面 是 PEP 249 中 给 出 的 使 用 connectO 函 数 的 例子 。 








connect (dsn2'myhost:MYDB',user-'guido',password-'234$') 



































表 6-3 connect() 函 数 属性 
2 Uu 描 X 
user 户 名 
password 密码 
host 主机 名 
database 数据 库 名 
dsn 数据 源 名 
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使 用 DSN 还 是 独立 参数 主要 基于 所 连接 的 系统 .比如 ,如 果 你 使 用 的 是 像 ODBC(Open 
Database Connectivity) 或 JDBC (Java Database Connectivity) 的 API， 则 需要 使 用 DSN; 
而 如 果 你 直接 使 用 数据 库 ， 则 更 倾向 于 使 用 独立 的 登录 参数 。 另 一 个 使 用 独立 参数 的 原因 
是 很 多 数据 库 适 配器 并 没有 实现 对 DSN 的 支持 。 下 面 是 一 些 没 有 使 用 DSN 的 connectO T4 
] 。 需 要 注意 的 是 ， 并 不 是 所 有 的 适配器 都 会 严格 按照 标准 实现 ， 比 如 MySQLdb 使 用 了 
db 而 不 是 database。 





























































































































































































































. MySQLdb.connect (host='dbserv', db='inv', user='smith') 


. PgSQL.connect (database-'sales') 

. psycopg.connect(database-'templatel', user='pgsql') 

e gadfly.dbapi20.connect('csrDB', '/usr/local/database') 
. sqlite3.connect ('marketing/test') 


























异常 同样 需要 包含 在 兼容 的 模块 中 ， 如 表 6-4 所 示 。 


表 6-4 DB-AP| 异 常 类 






















































































异 F 描 述 
Warning 警告 异常 基 类 
Error 错误 异常 基 类 
InterfaceError 数据 库 接 口 〈 非 数据 库 ) 错误 
DatabaseError 数据 库 错误 
DataError 处 理 数 据 时 出 现 问题 
OperationlError 数据 库 操作 执行 期 间 出 现 错误 
IntegrityError 数据 库 关 系 完 整 性 错误 
InternalError 数据 库 内 部 错误 
ProgrammingError SQL 命令 执行 失败 
NotSupportedError 出 现 不 支持 的 操作 








6.2.2 Connection 对 象 


应 用 与 数据 库 之 间 进 行 通信 需要 建立 数据 库 连 接 。 它 是 最 基本 的 机 制 ， 只 有 通过 数据 库 
连接 才能 把 命令 传递 到 服务 器 ， 并 得 到 返回 的 结果 。 当 一 个 连接 〈 或 一 个 连接 池 ) 建立 后 ， 
可 以 创建 一 个 游标 ， 向 数据 库 发 送 请 求 ， 然 后 从 数据 库 中 接收 回应 。 


Connection 对 象 方法 
Connection 对 象 不 需要 包含 任何 数据 属 





































































































性 ， 不 过 应 当 定义 表 6-5 所 示 的 几 个 方法 。 
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表 6-5 Connection 对 象 方法 
































A dk A 5 m 
close 0 关闭 数据 库 连 接 
qm 提交 当前 事务 
rollback() 取消 当前 事务 
co 使 用 该 连接 创建 (并 返回 ) 一 个 游标 或 类 游标 的 对 象 


























errorhandler (cxn, cur, errcls, errval ) 














当 使 







































































作为 给 定 连 接 的 游标 的 处 理 程序 


] close0 时 ， 这 个 连接 将 不 能 再 使 用 ， 人 否则 会 进入 到 腊 常 处 理 中 。 




















如 果 数 据 库 不 文 持 事 务 处 理 ， 或 启用 了 自动 提交 功能 ，commitO 方 法 都 将 无 法 使 用 。 如 














果 你 愿意 ， 可 以 实 下 


一 部 分 ， 所 以 对 于 不 支持 事务 处 开 

































































见 单独 的 方法 用 来 启动 或 关闭 自动 提交 功能 。 因 为 本 方法 是 DB-API 中 的 
的 数据 库 而 言 ， 只 需要 在 方法 中 实现 “pass” 即 可 。 












































和 commitO 相 似 ，rollback0 方 法 也 只 有 在 支持 事务 处 理 的 数据 库 中 才 有 用 。 发 生 异 常 Z 


后 ，rollbackO 会 将 数据 库 的 状态 恢复 到 事务 处 理 









































事先 提交 变更 ， 将 会 导致 执行 隐 式 回 滚 。” 
如 果 RDBMS 不 支持 游标 , 那么 cursor0 仍 然 会 返回 一 个 尽 可 能 模仿 真实 游标 的 对 象 。 这 






































是 最 基本 的 要 求 。 每 个 适配器 开发 者 都 可 以 为 他 的 接口 或 数据 库 专 门 添加 特殊 属性 。 
DB-API 建议 适配器 开发 者 为 连接 编写 所 有 的 数据 库 模 块 异 常 〈 见 
有 做 强制 要 求 。 如 果 没 有 ， 





























开始 时 。 根 据 PEP 249 所 述 “关闭 连接 而 不 


H 





—— 





X 6-4), {AFF 


则 认为 Connection 对 象 将 会 抛 出 对 应 模块 级 别 的 异常 。 当 你 











完成 数据 库 连 接 并 关闭 游标 时 ， 需 要 对 所 有 操作 执行 commit0)， 并 对 你 的 连接 执行 


close()。 











6.2.3 Cursor 对 象 


当 建 立 连接 后 ， 就 可 以 和 数据 库 进 行 通信 了 。 正 如 6.1 节 所 述 ， 游 标 可 以 让 用 户 提交 数 
行 。Python DB-API 游标 对 象 总 能 提供 游标 的 功能 ， 即 使 是 那 
些 不 支持 游标 的 数据 库 。 此 时 ， 如 果 你 创建 了 一 个 数据 库 适 配器 ,还 必须 要 实现 cursor 对 象 ， 
以 扮演 类 似 游标 的 角色 。 这 样 ， 无 论 你 将 数据 库 系统 切换 到 支持 游标 的 数 





据 库 命令 ， 





标的 数据 库 ， 都 能 保持 Python 代码 的 一 致 性 。 


并 








获得 查询 的 结 




























































































四 库 还 是 不 支持 游 


当 游 标 创建 好 后 ,就 可 以 执行 查询 或 命令 (或 多 个 查询 和 命令 )， 并 从 结果 集中 取 回 一 行 





或 多 行 结 果 。 表 6-6 所 示 为 Cursor 对 象 的 数据 属性 和 方法 。 





























游标 对 象 最 重要 的 属性 是 execute*() 和 fetch*() 方 法 ， 所 有 针对 数据 库 的 服务 请 求 都 
是 通过 它们 执行 的 。 arraysize 数据 属性 在 为 fetchmany(O 设 置 默认 大 小 时 非常 有 用 。 当 然 ， 














callproc(). 











在 不 需要 时 关闭 游标 是 个 好 





























E 意 ， 而 如 果 你 的 数据 库 文 持 存储 过 程 ， 可 能 会 用 到 





表 6-6 Cursor 对 象 属性 
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对 象 属性 fü B 

arraysize 使 用 fetchmany() 方 法 时 ， 一 次 取出 的 结果 行 数 ， 默 认为 1 

connection 创建 此 游标 的 连接 〈 可 选 ) 

description 返回 游标 活动 状态 (7 项 元 组 ): (name, type. code, display. size, internal size, 
precision, scale, null ok), 只 有 name Fil type. code 是 必需 的 

lastrowid 上 次 修改 行 的 行 ID CJ; WREX ID, WAE None) 

rowcount 上 次 execute*() 方 法 处 理 或 影响 的 行 数 

callproc( func [,args]) 调用 存储 过 程 

close() 关闭 游标 

execute (opLargs]) 执行 数据 库 查 询 或 命令 

executemany (op, args) 类 似 execute0 和 map() 的 结合 ， 为 给 定 的 所 有 参数 准备 并 执行 数据 库 查询 
或 命令 

fetchone() 获取 查询 结果 的 下 一 行 

fetchmany([size=cursor. arraysize]) 获取 查询 结果 的 下 面 size 行 

fetchall() 获取 查询 结果 的 所 有 (剩余) 行 

—iter () 为 游标 创建 迭代 器 对 象 〈 可 选 ， 参 考 next()) 

messages 游标 执行 后 从 数据 库 中 获得 的 消息 列表 《〈 元 组 集合 ， 可 选 ) 

next () 被 迭代 器 用 于 获取 查询 结果 的 下 一 行 ( 可 选 ， 类 似 fetehoneü, 2 
. iter (D 

nextset() 移动 到 下 一 个 结果 集合 〈 如 果 支 持 ) 

rownumber 当前 结果 集中 游标 的 索引 《以 行为 单位 ， 从 0 开始 ， 可 选 ) 

setinputsizes(sizes) 设置 允许 的 最 大 输入 大 小 (必须 有 ， 但 是 实现 是 可 选 的 ) 











setoutputsize(size[,col]) 


6.2.4 ”类 型 对 象 和 构造 




















设置 大 列 获取 的 最 大 缓冲 区 大 

















通常 ， 两 个 不 同系 统 间 的 接口 是 最 脆弱 的 。 比 如 在 Python 对 象 和 C 类 型 ， 
这 样 。 类 似 地 ， 在 Python 对 象 和 原生 数据 库 对 象 间 也 存在 这 个 问题 。 











的 DB-API 的 程序 员 ， 虽 然 你 传递 给 数据 库 的 参数 是 字符 串 





为 多 种 不 同 的 类 型 ， 从 而 可 以 对 任何 特定 查询 都 能 给 出 正确 


字符 


例如 ,一 个 Python 





WR, 抑或 是 DATE 或 TIME 对 象 呢 ? 为 数据 库 提 供 期 望 格式 的 输入 必须 非常 小 心 ， 


























小 (必须 有 ， 但 是 实现 是 可 选 的 ) 

















进行 转换 就 是 
作为 一 个 使 用 Python 
， 但 是 数据 库 可 能 需要 将 其 转换 











的 数据 类 型 。 





是 应 该 转换 成 VARCHAR TEXT、BLOB ,还 是 原生 BINARY 




















因此 ， 





DB-API 的 男 一 个 需求 是 创建 构造 函数 ， 从 而 构建 可 以 简单 地 转换 成 适当 数据 库 对 象 的 特 


殊 对 象 。 表 6-7 给 出 了 月 
对 象 None。 





HFE H 




















标的 一 些 类 。SQL 的 NULL 值 对 应 于 Python 的 NULL 
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表 6-7 类 型 对 象 和 构造 函数 























































































































类 型 对 象 描 述 
Date (yr, mo, dy) 日 期 值 对 象 
Time (hr, min, sec) 人 对 间 值 对 象 
Timestamp (yr, mo, dy, hr, min, sec) by [a] ERE 
DateFromTicks (ticks) 期 对 象 ， 给 出 从 新 纪元 时 间 (1970 4E. 1 A 1 H 00:00:00 UTC) 以 来 的 秒 数 
TimeFromTicks (ticks) 上 时 间 对 象 ， 给 出 从 新 纪元 时 间 (1970 4E 1 A 1 H 00:00:00 UTC) 以 来 的 秒 数 
TimestampFromTicks (ticks) 上 时 间 戳 对象， 给 出 从 新 纪元 时 间 (1970 4 1 A 1 H 00:00:00 UTC) 以 来 的 秒 数 
Binary (string) 对 应 二 进 制 〈 长 ) 字符 串 对 象 
STRING 表示 基于 字符 串 列 的 对 象 ， 比 如 VARCHAR 
BINARY 表示 《长 ) 二 进 制 列 的 对 象 ， 比 如 RAW. BLOB 
NUMBER 表示 数值 列 的 对 象 
DATETIME 表示 日 期 /时 间 列 的 对 象 
ROWID 表示 “ 行 ID” 列 的 对 象 








API 版 本 变更 


M 1.0 版 本 (1996 年 ) 修订 为 2.0 版 本 (1999 第 ，DB-API 做 了 几 个 重要 的 变更 。 

。 从 API 中 移 除 了 之 前 必须 的 dbi 模块 。 

。 更 新 了 类 型 对 象 。 

。 添加 了 新 属性 用 于 提供 更 好 的 数据 库 绑 定 。 

e 重新 定义 了 callproc0 的 语义 以 及 execute0 的 返 

。 转换 为 基于 类 的 异常 。 

DB-API 2.0 版 本 发 布 后 ， 曾 在 2002 年 添加 了 一 些 刚才 提 到 过 的 可 选 的 扩展 。 自 此 之 后 ， 
就 再 也 没有 重大 变更 了 。 关 于 DB-API 的 持续 讨论 一 直 在 DB-SIG 的 邮件 列表 中 进行 。 过 去 
五 年 ， 对 DB-API 的 下 一 版 本 的 可 能 性 进行 了 讨论 ， 该 版 本 暂时 命名 为 DB-API 3.0。 它 将 包 
含 如 下 特性 。 

© 当 有 一 个 新 的 结果 集 时 ，nextset0 可 以 给 出 一 个 更 好 的 结果 值 。 

e 将 float 转 为 Decimal. 

© ”改善 参数 风格 的 灵活 性 以 及 对 其 的 支持 情况 。 

e 预 编 译 语句 或 语句 缓存 。 

。 完善 事务 模型 。 

定 DB-API 可 移植 性 的 角色 。 
。 ”添加 单元 测试 。 



























































Iz] 


值 。 

































































































































































e 
& d 





























如 果 你 对 DB-API 或 其 


未 来 感 兴趣 ， 可 以 自由 加 入 相关 的 讨论 。 
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下 面 是 一 些 可 用 的 资源 。 
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e — http://python.org/topics/database 
e — http://linuxjournal.com/article/2605 (已 过 时 ， 
e http:Wwiki.python.org/moin/DbApi3 





6.2.5 ”关系 数据 库 


数据 库 系 统 的 接口 呢 ? ”或 者 说 是 :“Python 文 持 哪些 平台 呢 ?”” 答 案 是 : 




















但 具有 历史 意义 ) 














现在 我 们 可 以 准备 开始 学 习 了 ， 不 过 首先 会 有 


















































库 系 统 。” 下 面 是 一 个 大 概 〔 但 不 详尽 〉 的 接口 列表 。 
商业 RDBMS 
e IBM Informix 
e Sybase 
e Oracle 
e Microsoft SQL Server 
e IBMDB2 
e SAP 
e Embarcadero Interbase 
e Ingres 
开源 RDBMS 
e MySQL 
e PostgreSQL 
e SQLite 
e Gadfly 
数据 库 API 
e JDBC 
e ODBC 
非 关 系数 据 库 
e MongoDB 
e Redis 
e Cassandra 
e SimpleDB 
e Tokyo Cabinet 
e CouchDB 





个 问题 摆 在 我 们 面前 : 














“Python 有 哪些 
“几乎 所 有 的 数据 

















e Bigtable (通过 Google App Engine 的 数据 库 API) 
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要 了 解 更 新 的 (但 不 一 定 是 最 新 的 ) 数据 库 支 持 列表 ， 可 以 访问 下 面 的 网 址 : 








http://wiki.python.org/moin/DatabaseInterfaces 


6.2.6 ”数据 库 和 Python: 适配器 





















































对 于 每 种 支持 的 数据 库 ，Python 都 有 一 个 或 多 个 适配器 用 于 连接 Python 中 的 目标 数 
据 库 系统 。 比 如 Sybase、SAP、Oracle 和 SQLServer 这 些 数据 库 就 都 存在 多 个 可 用 的 适 配 




















器 。 我 们 需要 做 的 事情 就 是 挑选 出 最 合适 的 适配器 。 你 的 挑选 标准 可 能 包括 : 














它 的 性 能 如 














































































































Ap 
co 

































































































































































起 来 很 相似 ， 而 无 须 去 管 它 使 用 了 哪个 适配器 以 及 RDBMS。 


6.2.7 ”使 用 数据 库 适 配器 的 示例 

















首先 ， 让 我 们 看 一 些 代码 片段 ， 包 括 创建 数据 库 、 创 建 表 和 使 用 表 。 谤 























MySQL. PostgreSQL 和 SQLite 的 例子 。 
MySQL 




















如 果 你 不 希望 有 太 多 的 交互 操作 ， 比 如 你 希望 少 写 一 些 SQL 语句 ,或 者 尽 可 能 少 地 参 上 

数据 库 管理 的 细节 ， 那 么 你 可 以 考虑 ORM， 本 话题 将 在 本 章 后 面 的 小 节 中 进行 展开 。 
见 在 ， 让 我 们 看 几 个 使 用 适配器 模块 与 关系 数据 库 进 行 通信 的 例子 。 真 正 的 秘密 在 于 建 

立 连接 。 一 旦 你 建立 连接 ， 并 使 用 DB-API 的 对 象 、 属 性 和 对 象 方法 ， 你 的 核心 代码 就 会 


何 ， 它 的 文档 和 /或 网 站 是 否 有 用 ， 是否 有 一 个 活跃 的 社区 ， 驱 动 的 质量 和 稳定 性 如 何等 。 
需要 记 住 的 是 , 大 多 数 适 配器 只 提供 给 你 连接 数据 库 的 基本 需求 , 所 以 你 还 需要 寻找 一 些 
额外 的 特性 。 请 记 住 ,你 需要 负责 编写 更 高 级 别 的 代码 ， 比 如 线程 管理 和 数据 库 连 接 池 管 











aT 
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本 例 中 我 们 将 使 用 MySQL. DUE Python 中 著名 的 MySQL 适配器 : MySQLdb (EH 
MySQL-Python). 而 当 我 们 的 话题 转 为 Python 3 时 , 会 讨论 另 一 个 MySQL 适配器 : MySQL 
Connector/Python。 在 下 面 的 代码 中 ， 我 们 会 故意 留 下 错误 ， 从 而 让 你 能 够 






































首先 我 们 以 管理 员 的 身份 登录 数据 库 ， 创 建 数 据 库 并 赋予 权限 ， 然 后 
份 重新 登录 数据 库 客户 端 ， 具 体 代码 如 下 所 示 。 


>>> import MySQLdb 






































>>> cxn = MySQLdb.connect (user-'root') 
>>> cxn.query('DROP DATABASE test') 
Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
_mysql_exceptions.OperationalError: (1008, "Can't drop, database 


'test'; database doesn't exist") 


VA 


自己 想到 创建 








普通 用 户 的 身 
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.query ("GRANT ALL ON test.* to ''@'localhost'") 


>>> cxn.query('CREATE DATABASE test!) 
>>> cxn 
>>> cxn.commit () 
>>> cxn.close() 
在 上 面 的 代码 中 ， 并 没有 使 用 游标 。 



































方法 ， 或 者 























使 


事先 检查 适 丁 

commit() 方 法 是 可 选 的 , A 
户 登 录 这 个 新 数据 库 ， 创 建 表 ， 然 后 通过 Python 执行 一 些 常 用 的 SQL 查询 
游标 以 及 execute() 方 法 。 








T 





此 ， 建 议 或 





。 因 





























La! 








^ 


























o 


一 些 适 配器 有 Connection 对 象 ， 这 些 对 象 可 以 使 用 
query0) 方 法 执行 SQL 查询 ， 不 过 不 是 所 有 的 适配器 都 能 这 样 


该 方法 是 否 可 
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者 不 要 使 用 


这 个 














MySQL 默认 开启 了 自动 提交 。 下面 我 们 要 






































p; 





























下 面 的 
个 错误 发 生 。 


>>> cxn 





>>> cur 
222 Cur. 


OL 


现在 ， 向 数据 库 中 添加 一 些 行 ， 并 











尺码 展示 了 创建 表 的 方 》 


cxn.cursor() 


execute('CREATE 














T 





EREK 〈 在 没有 事先 删除 表 的 情 


lim 











o 


MySQLdb.connect (db='test') 


TABLE users (login VARCHAR(8), userid INT)') 





对 其 进行 查询 。 











>>> cur.execute("INSERT INTO users VALUES('john', 7000)") 

1L 

>>> cur.execute("INSERT INTO users VALUES('jane', 7001)") 

1L 

>>> cur.execute ("INSERT INTO users VALUES ('bob', 7200)") 

1L 

>>> cur.execute ("SELECT * FROM users WHERE login LIKE 'j$'") 
2L 

>>> for data in cur.fetchall(): 


.. print '%s\t%s' 


john 


jane 


x 
© 


7000 
7001 


data 














最 后 一 个 功能 是 更 新 表 ， 包 括 


te ("UPDATE users SET userid-7100 WHERE userid-7001") 


>>> cur. 
1L 
>>> cur. 
3L 



































更 新 和 删除 行 。 








execu 





execu 


te("SELECT * FROM users") 


>>> for data in cur.fetchall(): 


. print '$sNt$s' 


x 
© 


data 


和 


b P) 
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john 7000 

jane 7100 

bob 7200 

>>> cur.execute('DELETE FROM users WHERE login="bob"') 
1L 

>>> cur.execute('DROP TABLE users') 

OL 


>>> cur.close() 
>>> cxn.commit () 
>>> cxn.close() 


MySQL 是 目前 最 流行 的 开源 数据 库 之 一 , 因此 存在 可 用 的 Python 适配器 并 不 令 人 意外 。 
PostgreSQL 


另 一 个 流行 的 开源 数据 库 是 PostgreSQL. E MySQL 不 同 , Postgres 至 少 包 含 3 种 Python 
适配器 : psycopg. PyPgSQL 和 PyGreSQL。 还 有 一 种 适配器 ， 叫 PoPy， 目 前 已 上 废弃， 并且 
在 2003 年 将 其 项 目 与 PyGreSQL 进行 了 合并 。 目 前 剩 下 的 这 三 种 适配器 都 有 其 自己 的 特性 和 
优 缺 点 ， 所 以 根据 实践 对 其 进行 选择 更 加 明智 。 
当 我 们 介绍 各 种 适配器 的 使 用 方法 时 ， 需 要 注意 PyPgSQL A 2006 年 起 就 不 再 开发 了 ， 
而 PyGreSQL 则 是 在 2009 年 发 布 的 最 新 版 本 〈4.0)。 这 两 种 适配器 不 再 活跃 ， 使 得 psycopg 
BON PostgreSQL 适配器 的 唯一 引领 者 ， 因 此 本 书 的 示例 最 终 将 使 用 该 适配器 。psycopg 目前 
已 进入 到 第 二 个 版 本 ， 这 意味 着 虽然 相关 的 示例 中 使 用 了 版 本 1 的 psycopg 模块 ， 但 是 当下 
载 它 时 ， 需 要 使 用 psycopg2 KH. 

庆幸 的 是 ， 这 几 种 适配器 的 接口 都 很 相似 ， 所 以 可 以 创建 一 个 应 用 ， 并 对 比 这 三 种 适配器 
的 性 能 〈 如 果 性 能 对 你 来 说 很 重要 )。 下 面 的 代码 是 每 种 适配器 创建 Connection 对 象 的 代码 。 

psycopg 
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>>> import psycopg 
>>> cxn = psycopg.connect (user-'pgsql') 


PyPgSQL 


>>> from pyPgSQL import PgSQL 
>>> cxn = PgSQL.connect (user-'pgsql') 


PyGreSQL 


>>> import pgdb 
>>> cxn = pgdb.connect (user-'pgsql') 


下 面 是 一 些 可 以 用 于 这 三 种 适配器 的 通用 代码 。 
























































>>> cur = cxn.cursor() 
>>> cur.execute('SELECT * FROM pg database!) 
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>>> rows = cur.fetchall() 
>>> for i in rows: 
. print i 
>>> cur.close() 
>>> cxn.commit () 


>>> cxn.close() 


最 后 ， 你 可 以 看 到 每 种 适配器 的 输出 结果 有 些许 不 同 。 
PyPgSQL 





























sales 
templatel 
templated 


psycopg 
('sales', 1, 0, 0, 1, 17140, '140626', '3221366099', '', None, None) 
('templatel', 1, 0, 1, 1, 17140, '462', '462', 
pgsql]') 
('template0', 1, 0, 1, 0, 17140, '462', '462', '', None, '{pgsql=C*T*/ 
pgsql}') 


PyGreSQL 


'', None, '{pgsql=C*T*/ 


['sales', 1, 0, False, True, 17140L, '140626', '3221366099', '' 
None] 


, None, 


['templatel', 1, 0, True, True, 17140L, '462', '462', '', None, 
"{pgsql=C*T*/pgsql}'] 
['templateO', 1, 0, True, False, 17140L, '462', '462', '', None, 
"{pgsql=C*T*/pgsql}"] 


SQLite 




































































对 于 非常 简单 的 应 用 而 言 ， 使 用 文件 作为 持久 化 存储 通常 就 足够 了 ， 但 是 大 多 数 复杂 的 


























数据 驱动 的 应 用 则 需要 全 功能 的 关系 数据 库 。SQLite 的 目标 则 是 介 于 两 者 之 间 的 ， 









































它 量 级 轻 、 速 度 快 ， 没 有 服务 器 ， 很 少 或 不 需要 进行 管理 。 






































小 系统 。 


SQLite 正在 迅速 流行 起 来 ， 并 且 它 还 适用 于 不 同 的 平台 。Python 2.5 中 引入 了 SQLite 数 











据 库 适配器 作为 sqlite3 模块 ， 这 是 Python 首次 将 数据 库 适 配器 纳入 到 标准 库 当 中 。 




















SQLite 被 打包 在 Python F, 并 不 是 因为 它 比 其 他 数据 库 和 适配器 更 加 流行 ,而 



































足够 简单 ， 像 DBM 模块 一 样 使 用 文件 〈 或 内 存 ) 作为 其 后 端 存储 ， 不 需要 服务 器 ， 也 没有 
许可 证 问题 。 它 是 Python 中 其 他 类 似 的 持久 化 存储 解决 方案 的 一 个 蔡 代 品 ， 不 过 除 此 之 外 ， 





























它 还 拥有 SQL 接口 。 










































































是 因为 它 




















在 标准 库 中 拥有 该 模块 ， 可 以 使 你 在 Python 中 使 用 SQLite 开发 更 加 快速 ， 并 且 使 你 





在 有 需要 时 ， 能 够 更 加 容易 地 移植 到 更 加 强大 的 RDBMS 〈 比 如 ，MySQL、PostgreSQL、 
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Oracle 或 SQL Server) 中 。 如 果 你 并 不 需要 那些 强大 的 数据 库 ， 那 么 sqlite3 已 经 是 一 个 
很 好 的 选择 了 。 

尽管 标准 库 中 已 经 提供 了 该 数据 库 适 配器 ， 但 是 你 还 需要 自己 下 载 这 个 数据 库 本 身 。 当 
安装 数据 库 后 ， 就 可 以 启动 Python 〈 并 导入 适配器 模块 ) 来 直接 进行 访问 了 : 





































































































>>> import sqlite3 

>>> cxn = sqlite3.connect ('sqlite_test/test') 

>>> cur = cxn.cursor () 

>>> cur.execute('CREATE TABLE users (login VARCHAR(8), 
userid INTEGER) ') 

>>> cur.execute('INSERT INTO users VALUES ("john", 100) ') 

>>> cur.execute('INSERT INTO users VALUES ("jane", 110)') 

>>> cur.execute('SELECT * FROM users') 

>>> for eachUser in cur.fetchall(): 


print eachUser 


(u'john', 100) 

(u'jane', 110) 

>>> cur.execute('DROP TABLE users') 
<sqlite3.Cursor object at 0x3d4320> 
>>> cur.close() 

>>> cxn.commit () 


>>> cxn.close() 

这 个 小 例子 就 到 此 为 止 。 下 面 我 们 会 看 到 一 个 与 之 前 MySQL 例子 比较 相似 的 应 用 
过 会 执行 更 多 的 操作 ， 包 括 以 下 几 个 。 

。 创建 数据 库 〈 如 果 必 要 ) 

。 创建 表 

。 在 表 中 插入 行 

。 更 新 表 中 的 行 

。 删除 表 中 的 行 

。 删除 表 

在 这 个 例子 中 ， 我 们 还 将 使 用 另外 两 个 开源 数据 库 。SQLite 目前 已 经 变 得 非常 流行 了 。 
它 体 积 小 、 量 级 轻 ， 并且 在 大 多 数 数据 库 操作 中 都 能 够 拥有 较 快 的 执行 速度 。 而 男 一 个 要 引 
入 的 数据 库 是 Gadfly, 这 是 一 个 完全 使 用 Python 编写 的 兼容 SQL 的 RDBMS (一 些 关 键 数 据 
结构 也 包含 C 编写 的 模块 ， 不 过 Gadfly 可 以 不 依赖 其 运行 [ 当然， 速度 会 慢 一 些 D. 

在 进入 代码 之 前 ， 需 要 说 明 一 些 注意 事项 。SQLite 和 Gadfly 都 需要 你 指定 数据 库 文件 存 
储 的 位 置 CMySQL 拥有 一 个 默认 区 域 ， 所 以 不 需要 额外 设置 )。 另 外 ，Gadfly 目前 还 没有 良 
好 地 兼容 DB-API 2.0 标准 ， 因 此 会 有 一 些 功能 上 的 缺失 ， 其 中 在 本 例 中 最 需要 注意 的 是 游标 


属性 rowcount。 
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6.2.8 ”数据库 适配器 示例 应 用 


oR 

















在 下 面 的 例子 中 ， 我 们 将 演示 如 何 使 用 Python 来 访问 数据 库 。 为 了 能 够 尽 可 






































能 多 地 演示 


# 性 和 代码 ， 这 里 添加 了 对 3 种 不 同 数据 库 系 统 的 文 持 : Gadfly. SQLite 以 及 MySQL. 为 


了 后 续 加 入 更 多 的 东西 ， 首 先 会 给 出 Python 2.x 下 的 完整 源码 ， 但 不 会 给 出 逐 行 解释 。 
应 用 的 运行 与 之 前 小 节 中 描述 的 要 点 非常 相似 ， 所 以 你 应 该 可 以 在 没有 完整 解释 的 情况 
































































































































下 理解 其 功能 ， 只 需要 从 底部 的 mainO0) 函 数 开始 即 可 (为 了 保持 简单 ， 对 于 拥有 服务 器 的 完 
整 系统 ， 如 MySQL， 我 们 将 直接 作为 root 用 户 进行 登录 ， 当 然 这 种 做 法 在 生产 环境 中 不 提 
倡 )。 下 面 是 应 用 的 源码 ， 其 文件 名 为 ushuffle_db.py。 


#!/usr/bin/env python 


import os 
from random import randrange as rand 


COLSIZ - 10 

FIELDS = ('login', 'userid', 'projid') 

RDBMSs = {'s': 'sqlite', 'm': 'mysql', 'g': 'gadfly'} 
DBNAME = 'test' 

DBUSER = 'root' 

DB_EXC = None 

NAMELEN = 16 


tformat = lambda s: str(s).title().ljust (COLSIZ) 
cformat = lambda s: s.upper().1ljust (COLSIZ) 


def setup(): 
return RDBMSs[raw input(''' 
Choose a database system: 


(M) ySOL 
(G) adfly 
(S)QLite 


Enter choice: ''').strip().lower()[01] 


def connect (db): 
global DB EXC 
dbDir = '$s $s' $ (db, DBNAME) 


if db == 'sqlite': 
try: 
import sqlite3 
except ImportError: 
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dH 














try: 

from pysqlite2 import dbapi2 as sqlite3 
except ImportError: 

return None 


DB EXC = sqlite3 
if not os.path.isdir(dbDir): 
os.mkdir (dbDir) 


cxn = sqlite3.connect (os.path.join(dbDir, DBNAME)) 


elif db == 'mysql': 
try: 
import MySQLdb 
import _mysql_exceptions as DB_EXC 


except ImportError: 
return None 


try: 
cxn = MySQLdb.connect (db-DBNAME) 
except DB_EXC.OperationalError: 
try: 
cxn = MySQLdb.connect (user-DBUSER) 
cxn.query('CREATE DATABASE $s' % DBNAME) 
cxn.commit () 
cxn.close() 
cxn = MySQLdb.connect (db-DBNAME) 
except DB EXC.OperationalError: 


return None 


elif db -- 'gadfly': 
try: 
from gadfly import gadfly 
DB EXC = gadfly 
except ImportError: 
return None 


try: 
cxn = gadfly(DBNAME, dbDir) 
except IOError: 
cxn = gadfly() 
if not os.path.isdir(dbDir): 
os.mkdir (dbDir) 
cxn.startup(DBNAME, dbDir) 


else: 


return None 
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return cxn 


def create(cur): 
try: 
cur.execute(''' 

CREATE TABLE users ( 
login VARCHAR($d), 
userid INTEGER, 
projid INTEGER) 

'!"" $ NAMELEN) 
except DB EXC.OperationalError: 
drop (cur) 
create (cur) 


drop - lambda cur: cur.execute('DROP TABLE users') 


NAMES = ( 
('aaron', 8312), ('angela', 7603), ('dave', 7306), 
('davina',7902), ('elliot', 7911), ('ernie', 7410), 
('jess', 7912), ('jim', 7512), ('larry', 7311), 
('leslie', 7808), ('melissa', 8602), ('pat', 7711), 
('serena', 7003), ('stan', 7607), ('faye', 6812), 
('amy', 7209), ('mona', 7404), ('jennifer', 7608), 


def randName(): 
pick = set (NAMES) 
while pick: 
yield pick.pop() 


def insert(cur, db): 
if db == 'sqlite': 
cur.executemany("INSERT INTO users VALUES(?, ?, ?)", 
[(who, uid, rand(1,5)) for who, uid in randName()]) 
elif db -- 'gadfly': 
for who, uid in randName(): 
cur.execute("INSERT INTO users VALUES(?, ?, ?)", 
(who, uid, rand(1,5))) 
elif db == 'mysql': 
cur.executemany ("INSERT INTO users VALUES (%s, $s, $s)", 
[ (who, uid, rand(1,5)) for who, uid in randName() ]) 





getRC = lambda cur: cur.rowcount if hasattr(cur, 'rowcount') else -1 


def update (cur): 
fr rand(1,5) 
to = rand(1,5) 


cur.execute( 
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"UPDATE users SET projid-$d WHERE projid-$d" $ (to, fr) ) 
return fr, to, getRC(cur) 


def delete (cur): 
rm = rand(1,5) 
cur.execute('DELETE FROM users WHERE projid-$d' $ rm) 
return rm, getRC(cur) 


def dbDump (cur): 
cur.execute('SELECT * FROM users!) 


print '\n%s' $ ''.join(map(cformat, FIELDS)) 
for data in cur.fetchall(): 
print ''.join(map(tformat, data)) 
def main(): 
db = setup() 


print '*** Connect to $r database' $ db 
cxn - connect (db) 
if not cxn: 
print 'ERROR: $r not supported or unreachable, exiting' $ db 
return 


cur = cxn.cursor() 


print '\n*** Create users table (drop old one if appl.)' 
create (cur) 

print '\n*** Insert names into table' 

insert(cur, db) 

dbDump (cur) 


print '\n*** Move users to a random group' 

fr, to, num = update (cur) 

print 'Nt($d users moved) from ($d) to ($d)' $ (num, fr, to) 
dbDump (cur) 


print '\n*** Randomly delete group' 

rm, num - delete(cur) 

print '\t(group #%d; $d users removed)' $ (rm, num) 
dbDump (cur) 


print '\n*** Drop users table' 
drop (cur) 

print '\n*** Close cxns' 
cur.close() 

cxn.commit () 

cxn.close() 


if name S2 0 -malin t? 




















TB. | 
13. Ait, tA 
行 解释 。 
请 不 要 担心 ， 

















这 段 代 码 之 前 ， 还 有 一 件 


逐 行 解释 很 快 就 会 出 现 ， 





应 用 是 可 以 运行 的 。 如 果 你 想 尝试 一 下 ， 可 以 从 本 : 
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的 网 站 中 下 载 到 该 段 代 














事情 需要 汶 

















因为 我 们 使 用 本 例 还 有 另 一 个 用 途 : 
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主意 ， 我 们 将 不 会 给 出 这 段 代 码 的 逐 


展示 另 一 个 


移植 到 Python 3 的 例子 , 并 学 习 如 何 构建 一 个 可 以 在 Python 2 和 Python 3 中 都 可 以 运行 的 脚 











AS Cpy 文件 )， 而 不 需要 使 月 
称 为 示例 6-1。 





此 外 ， 我 们 还 会 


HR 2to3 或 3to2 这 样 
在 本 章 后 























到 使 用 ORM 的 例子 和 非 关 系数 据 库 的 例子 中 。 


移植 到 Python 3 


在 Core Python Language Fundamentals 这 本 书 的 “Best Practices” 一 章 中 曾 提供 






































= 


复 用 这 个 例子 的 属 














性 ， 


TREE 


的 工具 进行 转换 。 移 植 完成 后 ， 我 们 将 其 
用 的 示例 中 使 用 和 和 




















植 建议 ， 不 过 这 里 将 分 享 几 个 具体 的 提示 ， 并 使 用 ushuffle_db.py 对 其 进行 实现 。 








在 Python fll Python 3 移植 ， 














是 在 Python 3 中 是 
可 以 在 本 代码 中 使 用 。 














个 内 置 函数 。 作 为 两 者 的 替代 ， 
该 函数 在 Python 2 和 Python 3 中 是 一 致 的 ， 




















最 大 的 一 个 区 别 是 print， 在 Python 2 中 它 是 

















为 了 防止 代码 变 得 混乱 ， 本 





printprintO 致 敬 。 此 外 ， 本 章 续 

第 二 个 提示 是 针对 Python 2 的 内 置 函数 raw_inputO 的 。 
个 inputO R Zi, 
被 移 除 了 。 换 名 话说 ，raw_inputO 取 代 了 inputOPA ee, J£fE Python 3 F à 
我 们 在 本 应 用 中 将 使 用 scanfO 来 调 





比较 麻烦 的 是 在 





为 input(). 
Python 3 ! 
为 input(). 














同样 ， 为 了 表达 











应 用 中 将 把 i 

















Python 2 中 也 有 一 


对 C/C++ 的 敬意 ， 

















下 一 个 提示 是 关 了 
和 Core Python Programming 














中 


























IH: 
新 : 


except Exception, ins 


那 了 解 到 关于 这 个 变更 的 更 多 内 容 ， 不 过 


except Exception as i 


可 以 使 用 





Z RAEAN printf, LI] C/C++! 
尾 处 还 会 有 相关 的 练习 。 


的 “Errors and Exceptioons " 














distutils.log.warn() EK XL, 











了 一 些 移 


一 条 语句 , 但 


至 少 








因此 它 不 需要 任何 变更 。 














但 是 











等 效 的 


在 Python 3 中 它 的 名 字 变 更 
因为 存在 安全 风险 在 





命名 


























j 这 个 














已 经 详细 介 














EX 











tance 


nstance 





不 过 ，5 








a 











RAIN, A AE SEDI, 








就 现在 而 言 ， üeR m ne 

















不 关心 异常 产生 的 原 
也 没有 错误 。 
异常 的 i 


Al, 或 是 








这 样 可 以 使 移植 更 简单 。 





你 根本 没有 使 用 它 , 就 





吾 法 在 Python 2 和 Python 3 之 间 并 没有 什么 改变 。 在 本 
用 了 except Exception,e。 而 在 本 版 中 ， 我 们 将 把 所 有 的 “,e” 移 除 ， 而 不 是 变更 


























异常 处 理 时 语法 的 改变 。 该 主题 在 Core Python F 
。 你 可 以 从 


从 而 受到 影响 。 如 果 你 并 
不 需要 关注 。 即 使 只 写作 except Exception 


BB 的 早期 版 本 中 ， 我 们 使 
为 *ase", 


220 第 1 部 分 





通用 应 用 主题 






































最 后 要 进行 的 改变 是 专门 针对 本 例 的 ， 而 不 再 是 通用 的 移植 建议 。 在 本 书写 作 时 ， 基 于 











C 语言 编写 的 





MySQL Connector/Python 使 月 


Y 








FE 要 MySQL-Python 适配器 C844 73 MySQLdbO 还 没有 移植 到 Python 3 中 。 所 
以 我 们 需要 另 一 个 MySQL 适配器 ， 它 称 为 MySQL Connector/Python, ， 其 包 名 为 
Imysql.connector。 











编译 都 不 再 是 必需 
够 让 








Wi? 因为 它 能 



































Hai Python 实现 了 MySQL 客户 端 协议 ， 
的 了 ， 其 最 大 的 优点 就 是 可 以 移植 到 Python 3 中 。 为 什么 这 是 一 个 大 问题 
J] Æ Python 3 中 访问 MySQL 数据 库 ， 就 是 这 样 。 





因此 MySQL 库 和 

















在 对 ushuffle db.py 进行 了 上 述 所 有 改变 和 添加 后 ， 可 以 得 到 这 个 应 用 的 通用 版 本 : 
ushuffle_dbU.py， 如 示例 6-1 所 示 。 


示例 6-1 数据 库 适 配器 示例 Cushuffle dbU.py) 
本 脚本 使 用 不 同 数据 库 (MySQL. SQLite 和 Gadfly) 执行 一 些 基础 操作 。 它 在 Python 2 和 Python 3 下 都 可 





















































以 运行 ， 而 不 需要 进行 任何 代码 的 改变 ， 此 外 其 中 的 组 件 将 会 在 本 章 的 后 续 小 节 中 进行 复 用 。 


CRO OO 一 









































#!/usr/bin/env python 


from distutils.log import warn as printf 
import os 
from random import randrange as rand 





if isinstance( builtins , dict) and 'raw input' in — builtins : 
scanf = raw input 

elif hasattr( builtins , 'raw input'): 
scanf = raw input 

else: 


scanf = input 


COLSIZ - 10 

FIELDS = ('login', 'userid', 'projid') 
RDBMSs = {'s': 'sqlite', 'm': 'mysql', 'g': 
DBNAME - 'test' 

DBUSER = 'root' 

DB EXC = None 

NAMELEN - 16 


tformat = lambda s; str(s).title( ).| just(COLSIZ) 
cformat = lambda s; s.opper( ).ljust(COLS IZ) 


def setupO: 
return RDBMSs[raw input(''' 
Choose a database system: 


(M) ySQL 
(C) adfly 
(S)QLite 


Enter choice: ''').stripQ.lowerQ [0]] 
def connect(db, DBNAME): 


global DB EXC 
dbDir = '%s_%s' % (db, DBNAME) 


'gadfly') 
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if db == 'sqlite': 
try: 
import sqlite3 
except ImportError: 
try: 
from pysqlite2 import dbapi2 as sqlite3 
except ImportError: 
return None 


DB_EXC = sqlite3 
if not os.path.isdir(dbDir): 
os.mkdir(CdbDir) 
cxn = sqlite.connect(os.path.join(dbDir, DBNAME)) 


elif db == 'mysql': 
try: 
import MySQLdb 
import _mysql_exceptions as DB_EXC 


try: 
cxn = MySQLdb. connect (db=DBNAME) 
except DB EXC.OperationalError: 
try: 
cxn = MySQLdb.connect(user-DBUSER) 
cxn.query('CREATE DATABASE %s' % DBNAME) 
cxn.commi t () 
cxn.close() 
cxn = MySQLdb.connect(db-DBNAME) 
except DB EXC.OperationalError: 
return None 
except ImportError: 
try: 
import mysql.connector 
import mysql.connector.errors as DB EXC 
try: 
cxn = mysql.connector.Connect(**( 
'database': DBNAME, 
'user': DBUSER, 


D 
except DB EXC.InterfaceError: 
return None 
except ImportError: 
return None 


elif db -- 'gadfly': 
try: 
from gadfly import gadfly 
DB EXC = gadfly 
except ImportError: 
return None 


try: 
cxn = gadfly(DBNAME, dbDir) 
except IOError: 
cxn = gadfly) 
if not os.path.isdir(dbDir): 
os.mkdir(dbDir) 
cxn.startup(DBNAME, dbDir) 
else: 
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98 return None 

99 return cxn 

100 

101 def create(cur): 

102 try: 

103 cur.execute(''' 

104 CREATE TABLE users ( 

105 login VARCHARC%d) , 

106 userid INTEGER, 

107 projid INTEGER) 

108 '!' 96 NAMELEN) 

109 except DB EXC.OperationalError, e: 

110 drop(cur) 

111 create(cur) 

112 

113 drop = lambda cur: cur.execute('DROP TABLE users') 

114 

115 NAMES = ( 

116 C'aaron', 8312), C'angela', 7603), ('dave', 7306), 

117 C'davina',7902), ('elliot', 7911), ('ernie', 7410), 

118 ('jess', 7912), C'jim', 7512), C'larry', 7311), 

119 C'leslie', 7808), C'melissa', 8602), ('pat', 7711), 

120 C'serena', 7003), ('stan', 7607), C('faye', 6812), 

121 C'amy', 7209), ('mona', 7404), ('jennifer', 7608), 

122 ) 

123 

124 def randName(): 

125 pick = set(NAMES) 

126 while pick: 

127 yield pick.popO 

128 

129 def insert(cur, db): 

130 if db == 'sqlite': 

131 cur.executemany("INSERT INTO users VALUES(?, ?, ?)", 
132 [(who, uid, rand(1,5)) for who, uid in randName()]) 
133 elif db == 'gadfly': 

134 for who, uid in randName(): 

135 cur.execute("INSERT INTO users VALUES(?, ?, ?)", 
136 (who, uid, rand(1,5))) 

137 elif db == 'mysql': 

138 cur.executemany("INSERT INTO users VALUES(%s, %s, 96s)", 
139 [Owho, uid, rand(1,5)) for who, uid in randName()]) 
140 


141 getRC = lambda cur: cur.rowcount if hasattr(cur, 
'rowcount') else -1 


142 
143 def 
144 


update(cur): 

fr = rand(1,5) 

to - rand(1,5) 

cur.execute( 

"UPDATE users SET projid=%d WHERE projid=%d" 96 (to, fr)) 
return fr, to, getRC(cur) 


delete(cur): 

rm = rand(1,5) 

cur.execute('DELETE FROM users WHERE projid=%d' 96 rm) 
return rm, getRC(cur) 


dbDump (cur): 
cur.execute('SELECT * FROM users') 
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157 printf('\n%s' % ''.join(map(cformat, FIELDS))) 
158 for data in cur.fetchall(): 
159 printf(''.join(map(tformat, data))) 
160 
161 def main() : 
162 db = setup() 
163 printf('*** Connect to %r database' % db) 
164 cxn = connect(db) 
165 if not cxn: 
166 printf('ERROR: %r not supported or unreachable, exit' % db) 
167 return 
168 cur = cxn.cursor() 
169 
170 printf('Xn*** Creating users table') 
171 create(cur) 
172 
173 printfC'\n*** Inserting names into table') 
174 insert(cur, db) 
175 dbDump(cur) 
176 
177 printfC'\n*** Randomly moving folks') 
178 fr, to, num = update(cur) 
179 printfC'\t(%d users moved) from (96d) to (%d)' % (num, fr, to)) 
180 dbDump (cur) 
181 
182 printfC'\n*** Randomly choosing group') 
183 rm, num = delete(cur) 
184 printf('NtCgroup #%d; %d users removed)' % (rm, num)) 
185 dbDump (cur) 
186 
187 printf('Xn*** Dropping users table') 
188 drop(Ccur) 
189 printfC'\n*** Close cxns') 
190 cur.close() 
191 cxn.commi t () 
192 cxn.close() 
193 
194 if | name .-- ' main ': 
195 main() 
逐 行 解释 
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脚本 的 最 开始 部 分 导入 了 必需 的 模块 ， 创 建 了 一 些 全 局 常量 





























数 以 重 命名 为 scanf()， 即 我 们 指定 的 用 户 命 令 行 输 入 的 函数 。 








易 解释 : 我们 会 检查 内 置 函 数 中 是 否 包括 raw_input()。 如 果 包 括 








(用 于 显示 列 的 大 小 ， 以 及 
支持 的 数据 库 种 类 等 )， 并 实现 了 tformat(). cformat( fll setupO 几 个 函数 的 功能 。 
在 import 语句 之 后 ， 你 会 发 现 一 些 奇怪 的 代码 (第 7 一 12 行 ) 用 于 找到 正确 的 函 








elif 和 else i 
E, 则 表示 我 人 






































(1 或 )2 中, 并 且 可 以 使 用 该 函数 。 否则 ,我们 处 于 Python 3 中 ,应 该 使 用 











input()。 











吾 句 则 比较 容 
] 处 于 Python 
它 的 新 名 字 : 











用 应 用 
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AWA 








题 











而 if 语句 就 有 些 复杂 了 。__builtins ”只 是 应 用 中 的 一 个 模块 。 鼠 
. builtins “就 成 为 一 个 字典 。 这 个 条 伯 
“raw_input” 这 个 名 字 ， 如 果 不 存在 ， 就 说 明 它 是 一 个 模块 ， 需 要 向 下 i 





希望 这 是 有 意义 





而 对 于 tformat() 和 cformatO 这 两 个 函数 ， 前 者 ) 
“标题 样式 格式 化 函数 ” 从 数据 库 中 获取 名 字 是 一 种 廉价 的 方法 ， 它 可 
小 写 〈 如 我 们 得 到 的 那样 )、 首 字母 大 写 或 全 大 写 ， 这 样 所 有 的 名 字 就 可 以 统一 了 。 后 
它 所 做 的 就 是 接受 每 个 列 名 并 使 用 





说 “tformat” 表 
以 全 








面 的 函数 表示 “全 大 写 格式 化 函数 ”。 





的 。 


ES 





它 转换 为 头 部 的 全 大 写 形式 。 


这 两 个 格式 化 函数 都 会 将 
在 样本 数据 中 不 会 有 数据 超 昌 
你 的 数据 。 尽 管 可 以 将 这 两 个 函数 写成 传统 的 函数 ， 但 





语法 。 
有 人 可 能 会 






































本 ， 不 是 吗 ? 
如 前 所 述 ， 


的 print 和 Python 3 中 的 print). ZETZIV 

大 多 数 常量 都 非常 简单 明了 。 一 个 异常 名 为 DB_EXC， 它 表示 数 
居 用 户 选 择 运 行 本 应 用 的 数据 库 系 统 的 不 同 来 指定 数 所 
j 户 选择 了 MySQL， 那么 DB EXC 5 
果 将 本 应 用 以 更 加 面向 对 象 的 方式 进行 构建 , 则 会 有 一 个 类 , 在 其 


EXCeption )。 这 个 变量 最 终 会 根 所 


MER. AE 








户 选择 RDBMS, UJ 
这 里 展示 的 代码 可 以 在 其 他 地 方 进行 使 月 


























语句 是 说 如 果 导 入 它 ， 忆 


IREA T ABRE, 























BA Te ER EI 





























| 于 格式 化 字符 


H 








H 


中 是 否 存在 

















A elif 和 else ! 






































认为 ， 我 们 在 scanfO 上 做 了 这 人 么 多 的 努力 ， 却 只 是 用 








Hx p 


输出 左 对 齐 ， 并 





















































了 。 


以 显示 标题 ， 也 就 是 


strupper() 方 法 把 


限制 为 10 个 字符 的 宽度 ， 这 是 因为 





民 制 ， 而 当 你 自己 使 ) 














JI, nj 























TITRARE BUR 




















EH 














HIE 






































我 们 已 经 拥有 J 



























































bi, wR} 








比如 self.db_exc_module. 
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connect FK BU BH 
语句 处 ), 我 们 都 会 尝 i 


表示 无 法 支持 该 


当 连 接 建立 后 ， 所 有 剩 下 的 代码 就 都 是 与 数据 库 和 适配器 不 相关 的 了 ， 这 些 代码 在 所 有 














数据 库 系统 。 














j 户 输出 函数 ， 即 使 

















-— 


























EMAN printf(). 
HERR (DataBase 


以 修改 COLSIZ 来 适应 
简单 的 lambda 


于 在 setupO 函 数 中 提示 
F 何 特定 执行 《或 者 本 章 后 面部 分 的 衍生 版 本 )。 不 过 ， 
日 。 我 们 并 没有 声明 这 是 一 个 在 生产 环境 中 使 用 的 脚 
] distutils.log.warn() 来 蔡 代 Python 2 中 
中 ， 将 其 导入 (第 3 行 ) 并 和 
































H 











i 


FERE 
L2x7& mysql exceptions. Jl 


中 作为 一 个 实例 属性 出 现 ， 


中 库 一 致 性 访问 的 核心 。 在 每 部 分 的 开始 处 《这 里 指 每 个 数据 库 的 if 
式 加 载 对 应 的 数据 库 模 块 。 如 果 没 有 找到 合适 的 模块 ， 就 会 返 


None， 





连接 中 都 应 该 能 够 工作 (只 有 在 本 脚本 的 insert0 中 除外 )。 在 本 部 分 代码 的 3 个 子 部 分 中 ， 


你 会 发 现 最 终 都 


如 果 选 择 的 是 SQLite， 我 们 会 尝试 加 载 一 个 数 





会 返回 








一 个 有 效 连接 cxn。 








中 库 适 配器 。 首 先 我 们 会 尝试 加 载 标准 

















库 








中 的 sqlite3 BEER (Python 2.5+)。 如 果 加 载 失 败 ， 则 会 寻找 第 三 方 pysqlite 包 。pysqlite 适 配 


器 可 以 支持 2.4.x 或 更 老 的 版 本 。 如 果 两 个 配器 中 外 





这 是 





是 否 存 在 ， 











因为 该 数据 库 是 基于 文件 的 (也 可 以 使 用 :memory: 作 为 文件 名 ， 从 而 在 








FE 何 一 个 加 载 成 功 , 接 下 来 就 需要 检查 





录 














内 存 


中 创建 数据 库 )。 
个 新 目录 。 








当 对 SQLite i 











5H] connectO 时 ， 


RIER 








HEFER 






































MySQL 使 用 默认 区 


MySQL 适配器 











3。 如 果 两 
本 应 月 











域 来 存放 数 
试 导 


则 说 明 不 支持 MySQL, 











DB-API 的 兼容 , 你 会 在 本 应 


H 











中 看 到 与 i 

















中 库 文 件 ， 因 此 不 需要 由 
是 MySQLdb 包 ， 所 以 首先 尝 
划 ” 也 就 是 mysql.connector 包 , 这 也 是 一 个 不 错 
者 都 没有 找到 ， 
昌 中 最 后 一 个 支持 的 数据 库 是 Gadfly (在 本 书写 作 时 ， 
冀 问 题 相 关 的 内 容 )。 它 使 
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录 ， 如 果 没 有 ， 则 创建 一 


























H 
入 该 包 。 和 SQLite 


的 选择 











Fr 





HJ" dí 


因为 它 可 以 兼容 Python 2 F 
因此 返回 None 值 。 
该 数据 库 还 没有 完 


定 文件 位 置 。 最 流行 的 
一 样 ， 还 有 一 个 “B 计 
H Python 











A 


完全 实现 对 



































启动 机 制 : 
取 一 种 迁 回 方 
NHAU H 
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局 动 时 会 首 

















J 























create0 函 数 在 数据 库 中 创建 了 一 个 新 表 users. 如果 发 生 人 
存在 了 。 如 果 是 这 种 情况 ， 就 删除 该 表 六 














的 风险 ， 如 果 重 新 色 





— 














F 到 构造 函数 gadfly.gadfly()4 








6 设 定数 据 库 文件 





式 来 建立 新 的 数据 库 〈 我 们 也 不 确定 为 什么 需 





D s 


















































































































































通过 递归 调用 该 函数 
建 该 表 的 过 程 仍然 失败 ， 将 会 陷入 到 无 限 递归 当中 ,直到 应 用 耗 尽 内 存 。 


应 当 存 放 的 目录 。 ME 





这 样 。 








HU 几乎 总 是 


了 一 个 和 SQLite 相似 的 





AS 








N, RER 


相信 startupO 函 数 未 来 











因为 这 个 表 已 经 














EE 新 创建 。 





这 段 代 码 存 在 一 定 







































































































































































































































































































































































在 本 章 结 尾 处 的 一 个 练习 中 你 将 对 该 风险 进行 修复 。 

删除 数据 库 表 的 操作 是 通过 dropO 函 数 完成 的 ， 该 函数 只 有 一 行 ， 是 一 个 lambda 

第 115—127 行 

下 面 一 段 代 码 是 由 用 户 名 和 用 户 ID 组 成 的 常量 集 NAMES， 然 后 是 生成 器 
randName(). NAMES 是 一 个 元 组 ， 不 过 在 randNameO 中 使 用 时 需要 将 其 转化 为 集合 ， 
这 是 由 于 我 们 需要 在 生成 器 中 修改 它 的 值 , 每 次 删除 一 个 名 字 , 直到 所 有 名 字 耗 尽 为 止 。 
因为 该 行为 具有 破坏 性 ， 且 在 应 用 中 会 经 常用 到 ， 因 此 最 好 的 方法 是 将 NAMES 作为 标 
准 源 ， 将 其 内 容 复制 到 另 一 个 数据 结构 中 ， 以 便 在 每 次 使 用 生成 器 时 销毁 的 是 新 的 数据 
结构 。 

$ 129—139 行 

insertO 函 数 是 代码 中 仅 剩 的 一 处 依赖 于 数据 库 的 地 方 。 这 是 因为 每 个 数据 库 都 在 某 些 方 
面 存在 细微 的 差别 。 比 如 ，SQLite 和 MySQL 的 适配器 都 是 兼容 DB-API 的 ， 所 以 它们 的 游 
标 对 象 都 存在 executemanyO 函 数 ， 但 是 Gadfly 就 只 能 每 次 插入 一 行 。 

另 一 个 差别 是 SQLite 和 Gadfly 都 使 用 的 是 qmark 参数 风格 , 而 MySQL 使 用 的 是 format 
参数 风格 。 因 此 ， 格 式 化 字符 串 也 存在 一 些 差别 。 不 过 ， 如 果 你 仔细 看 ， 会 发 现 它 们 的 参数 
创建 实际 上 非常 相似 。 

这 段 代 码 的 功能 是 : 对 于 每 个 用 户 名 -用 户 ID 对 ， 都 会 被 分 配 到 一 个 项 目 组 中 (给 予 其 
JH ID, BJ projid)。 项 H ID 是 从 4 个 不 同 的 组 中 随机 选 出 的 。 
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EE 


第 141 4T 
该 行 是 一 个 条 件 表达 式 〈 也 可 以 解读 为 是 Python 的 三 元 操作 符 )， 用 于 返回 最 后 一 次 操 
作 后 影响 的 行 数 ， 不 过 如 果 游 标 对 象 不 支持 该 属性 〈 即 不 兼容 DB-API)， 则 返回 -1。 
条 件 表达 式 是 从 Python 2.5 开始 引入 的 , 所 以 如 果 你 使 用 的 是 2.4.x 或 更 老 的 版 本 ， 则 需 
要 将 其 转 回 到 旧式 写法 。 
















































































getRC = lambda cur: (hasattr(cur, 'rowcount') \ 


and [cur.rowcount] or [-1])[0] 


如 果 你 对 这 行 代码 感到 一 定 的 困惑 , 不 需要 太 担 心 。 你 可 以 查阅 FAQ 来 看 看 为 什么 它 是 
这 样 的 ， 以 及 为 什么 在 Python 2.5 版 本 中 会 引入 条 件 表达 式 。 如 果 你 已 经 弄 清 楚 这 些 了 ， 就 
可 以 对 Python 对 象 及 其 布尔 值 拥有 扎实 的 认识 。 

F 143—153 行 

update0 和 delete0 函 数 会 随机 选择 项 目 组 中 的 成 员 。 如 果 是 更 新 操作 ， 则 会 将 其 
组 移动 到 另 一 个 随机 选择 的 组 中 ;如 果 是 删除 操作 ， 则 会 将 该 组 的 成 员 全 部 删除 。 

第 155 一 159 行 

dbDump(O) 函 数 会 从 数据 库 中 拉 取 所 有 行 ， 将 其 按照 打印 格式 进行 格式 化 ， 然 后 显示 
给 用 户 。 输 出 显示 需要 用 到 cformat()( 用 于 显示 列 标题 ) 和 tformat()( 用 于 格式 化 每 个 用 
户 行 )。 

首先 ， 在 通过 fetchall(0 方 法 执行 的 SELECT 语句 之 后 ， 所 有 数据 都 提取 出 来 了 。 所 以 当 
迭代 每 个 用 户 时 ， 将 3 列 数据 Clogin, userid. projid) 通过 map0) 传 递 给 tformat()， 使 数据 转 
化 为 字符 串 ( 如 果 它 们 还 不 是 ), 将 其 格式 化 为 标题 风格 ， 且 字符 串 按照 COLSIZ 的 列 宽度 进 
行 左 对 齐 〈 右 侧 使 用 空格 填充 )。 

第 161—195 íf 

这 个 示例 的 核心 是 main()。 它 会 执行 上 面 描述 的 每 个 函数 ， 并 定义 脚本 如 何 执行 (假设 
不 存在 由 于 找 不 到 数据 库 适配器 或 无 法 获得 连接 而 中 途 退 出 的 情况 [第 164—166 行 ])。 这 E 
代码 的 大 部 分 都 非常 简单 明了 ， 它 们 会 与 输出 语句 相 接 近 。 代 码 的 最 后 一 段 则 是 把 游标 和 连 
接 包 装 了 起 来 。 
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6.3 ORM 


正如 前 面 章节 所 看 到 的 ， 现 在 有 很 多 不 同 的 数据 库 系 统 ， 并 且 其 中 的 大 部 分 系统 都 包含 
Python 接口 ， 能 够 使 你 更 好 地 利用 它们 的 功能 。 而 这 些 系统 唯一 的 缺点 是 需要 你 了 解 SQL. 
如 果 你 是 一 个 更 愿意 操纵 Python 对 象 而 不 是 SQL 查询 的 程序 员 ， 并 且 仍然 希望 使 用 关系 数 
据 库 作为 你 的 数据 后 端 ， 那 么 你 可 能 更 倾向 于 使 用 ORM.» 






























































6.3.1 考虑 对 象 ， 而 不 是 SQL 
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这 些 ORM 系统 的 作者 将 纯 SQL 语句 进行 了 抽象 化 处 理 ， 将 其 实现 为 Python 中 的 
对 象 ， 这 样 你 只 操作 这 些 对 象 就 能 完成 与 生成 SQL 语句 相同 的 任务 。 一 些 系统 也 


























一 定 的 灵活 性 ， 可 以 让 你 执行 几 行 SQL 语句 ， 但 是 大 多 数 情况 下 ， 都 应 该 避免 普 


SQL 语句 。 
数据 库 表 被 神奇 地 转化 为 Python 类 ， 其 中 的 数据 列 作为 属 ; 
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欣慰 的 是 ， 你 的 这 一 点 额外 工作 可 以 获得 更 高 的 生产 率 。 


6.3.2 Python 和 ORM 
































容易 。 





$e ir 
通 的 








生 ， 而 数据 库 操 作 则 会 作为 方 
法 。 让 你 的 应 用 支持 ORM 与 标准 数据 库 适 配器 有 些 相 似 。 由 于 ORM 需要 代替 你 执行 很 多 
工作 ， 因 此 一 些 事情 变 得 更 加 复杂 ， 或 者 需要 比 直接 使 用 适配器 更 多 的 代码 行 。 不 过 ， 值 得 


目前 最 知名 的 Python ORM 是 SQLAlchemy (http://sqlalchemy.org ) 和 SQLObject 
Chttp:/sqlobjectorg )。 我 们 将 分 别 给 出 这 两 种 ORM 的 例子 ， 由 于 设计 哲学 的 不 同 ， 这 两 种 
ORM 也 会 存在 些许 区 别 。 不 过 ， 一 旦 你 学 会 了 其 中 的 一 种 ， 迁 移 到 其 他 ORM 就 会 变 得 更 加 














其 他 一 些 Python ORM 还 包括 : Storm, PyDO/PyDO2, PDO, Dejavu, Durus, QLime 
和 ForgetSQL。 基 于 Web 的 大 型 系统 也 会 包含 它们 自己 的 ORM 组 件 ， 如 WebWare 
MiddieKit 和 Django 的 数据 库 API。 需 要 提醒 的 是 ， 知 名 的 ORM 并 不 意味 着 适合 于 你 的 












































应 用 。 尽管 这 些 ORM 并 不 在 我 们 的 讨论 范围 内 ， 但 这 不 意味 着 























这 些 ORM 就 不 适 | 



































的 应 用 。 





安装 








由 于 SQLAlchemy 和 SQLObject 都 不 在 标准 库 当 中 , 因此 需要 手动 下 载 以 及 安装 它们 ( 通 


















































常 可 以 使 用 easy_install 或 pip 工具 比较 方便 地 安装 )。 
在 本 书写 作 时 ， 上 面 描述 的 所 有 包 都 支持 Python 2， 只 有 







































































其 他 事情 。 






































SQLAlchemy、SQLite 和 
MySQL Connector/Python 适配器 还 支持 Python 3。sqlite3 包 在 Python 2.5+ 或 Python 3.x ! 
已 经 作为 标准 库 的 一 部 分 了 ， 所 以 除非 你 使 用 的 是 2.4 或 更 老 的 版 本 ， 否 则 不 需要 做 任何 


于 你 

















如 果 你 的 计算 机 中 只 安装 了 Python 3， 那 么 你 需要 先 获取 Distribute (包含 了 easy_install)。 你 
需要 一 个 Web 浏览 器 (或 者 curl 命令 ) 来 下 载 安 装 文件 《http://python-distribute.org/distribute 
_setup.py)， 然 后 使 用 easy install 获取 SQLAlchemy。 下 面 是 在 一 台 Windows PC 上 的 整个 过 




















plo e 
程 示 意 。 
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C:\WINDOWS\Temp>C:\Python32\python distribute setup.py 

Extracting in c:\docume~1\wesley\locals~1\temp\tmp8mcddr 

Now working in c:\docume~1\wesley\locals~1\temp\tmp8mcddr\distribute- 
0.6.21 

Installing Distribute 

warning: no files found matching 'Makefile' under directory 'docs' 
warning: no files found matching 'indexsidebar.html' under directory 
'docs' 

creating build 


creating build\src 
Installing easy install-3.2.exe script to C:\python32\Scripts 


Installed c:\python32\lib\site-packages\distribute-0.6.21-py3.2.egg 
Processing dependencies for distribute--0.6.21 

Finished processing dependencies for distribute--0.6.21 

After install bootstrap. 

Creating C:\python32\Lib\site-packages\setuptools-—0.6cll-py3.2.egg-info 
Creating C:\python32\Lib\site-packages\setuptools.pth 

C: NNINDOWSNTemp» 

C: NWINDOWSNTemp»C:MPython32NMScripts easy install sqlalchemy 
Searching for sqlalchemy 

Reading http://pypi.python.org/simple/sqlalchemy/ 

Reading http://www.sqlalchemy.org 

Best match: SQLAlchemy 0.7.2 

Downloading http://pypi.python.org/packages/source/S/SQLAlchemy/ 
SQLAlchemy-0.7.2.tar.gz#md5=b84a26ae2e5de6f£518d7069b29bf8F72 


Adding sqlalchemy 0.7.2 to easy-install.pth file 
Installed c:\python32\lib\site-packages\sqlalchemy-0.7.2-py3.2.egg 
Processing dependencies for sqlalchemy 


Finished processing dependencies for sqlalchemy 


6.3.3 ”员工 角色 数据 库 示 例 


我 们 将 把 用 户 洗 牌 应 用 ushuffle db.py 移植 到 SQLAlchemy 和 SOLObject 两 种 ORM 上 。 
这 两 种 情况 下 ，MySQL 都 是 后 端 数据 库 服务 器 。 相 比 于 在 数据 库 适 配器 中 使 用 原始 SQL 语 
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句 而 言 ， 你 会 注意 到 这 里 是 以 类 的 形式 实现 ， 这 是 因为 使 用 ORM 更 有 面向 对 象 的 感觉 。 两 
个 例子 都 导入 了 ushuffle db.py HAY NAMES 集合 以 及 随机 姓名 选择 器 。 这 样 可 以 避免 到 处 复 
制 、 粘 贴 相同 的 代码 ， 毕 竞 代码 能 够 复 用 是 件 很 好 的 事情 。 


6.3.4 SQLAIchemy 


我 们 从 SQLAlchemy 开始 是 因为 这 个 接口 相 比 于 SQLObject 的 接口 更 加 接近 于 SQL 语 
句 。SQLObject 更 加 简单 、 更 加 类 似 Python、 更 快速 ， 而 在 SQLAlchemy 中 对 象 的 抽象 化 十 
分 完美 ， 如 果 你 愿意 ， 还 可 以 给 你 更 好 的 灵活 性 用 来 提交 原生 SQL 语句 。 

示例 6-2 和 示例 6-3 可 以 说 明 用 户 洗 牌 示例 在 使 用 两 种 ORM 移植 的 情况 下 ， 在 设置 、 
访问 甚至 代码 行 数 上 都 非常 相似 。 两 个 示例 中 都 借用 了 ushuffle_db{,U}.py 中 的 同一 组 函数 
和 常量 。 















































































































































示例 6-2 SQLAIchemy ORM 示例 Cushuffle sad.py) 


这 个 兼容 Python 2.x 和 3.x 版 本 的 用 户 洗 牌 应 用 使 用 SQLAlchemy ORM 搭配 后 端 数 据 库 MySQL 或 
SQLite. 

































































s! /usr/bin/env python 


from distutils.log import warn as printf 
from os.path import dirname 
from random import randrange as rand 
from sqlalchemy import Column, Integer, String, create engine, exc, orm 
from sqlalchemy.ext.declarative import declarative base 
from ushuffle dbU import DBNAME, NAMELEN, randName, 
FIELDS, tformat, cformat, setup 


oo —) OW tn 4 S t9 — 


So 


DSNs = { 
'mysgl': 'mysql://root@localhost/%s' % DBNAME, 
'sqlite': 'sqlite:///:memory:', 


GRUPS 


Base = declarative_base() 

16 class Users(Base): 

. tablename  - 'users' 

login = Column(String(NAMELEN) ) 

userid = Column(Integer, primary key-True) 

20 projid = Column(Integer) 

21 def | str (self): 

22 return ''.join(map(tformat, 

23 (self.login, self.userid, self.projid))) 


Sen 


25 class SQLAlchemyTest (object): 

26 def _ init (self, dsn): 

27 try: 

28 eng = create engine(dsn) 
29 except ImportError: 

30 raise RuntimeError() 
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def 


def 


def 


def 


def 


def 


try: 
eng.connect() 

except exc.OperationalError: 
eng = create engine(dirname(dsn)) 
eng.execute('CREATE DATABASE %s' % DBNAME).close() 
eng = create_engine(dsn) 


Session = orm.sessionmaker(bind-eng) 
self.ses = Session() 

self.users = Users. table _ 

self.eng = self.users.metadata.bind = eng 


insert(self): 

self.ses.add allC 
Users(login-who, userid-userid, projid=rand(1,5)) \ 
for who, userid in randName() 


self.ses.commit() 


update(self): 
fr = rand(1,5) 
to = rand(1,5) 
i= -1 
users = self.ses.query( 
Users). filter_by(projid=fr).al1Q 
for i, user in enumerate(users): 
user.projid = to 
self.ses.commit() 
return fr, to, i+1 


delete(self): 
rm = rand(1,5) 
i = -1 


users = self.ses.query( 
Users) .filter_by(projid=rm) .al1Q 
for i, user in enumerate(users): 
self.ses.delete(user) 
self.ses.commit() 
return rm, i41 


dbDump (self): 
printf('Nn9s' % ''.join(map(cformat, FIELDS))) 
users = self.ses.query(Users).allO 
for user in users: 
printf(user) 
self.ses.commit() 


. getattr (self, attr): # use for drop/create 
return getattr(self.users, attr) 


finish(self): 
self.ses.connection().close() 


def mainO: 


printf('*** Connect to %r database' % DBNAME) 


db - 


setup() 


if db not in DSNs: 
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89 printf('\nERROR: %r not supported, exit' % db) 
90 return 
91 
92 try: 
93 orm = SQLAlchemyTest(DSNs[db]) 
94 except RuntimeError: 
95 printf('NnERROR: %r not supported, exit' % db) 
96 return 
97 
98 printf('Xn*** Create users table (drop old one if appl.)') 
99 orm.drop(checkfirst-True) 
100 orm.create() 
101 
102 printf('\n*** Insert names into table') 
103 orm.insert() 
104 orm. dbDump () 
105 
106 printf('\n*** Move users to a random group') 
107 fr, to, num = orm.update() 
108 printf('\t(%d users moved) from (96d) to (%d)' 96 (num, fr, to)) 
109 orm.dbDump () 
110 
111 printf('\n*** Randomly delete group') 
112 rm, num = orm.delete() 
113 printf('Nt(group #%d; %d users removed)’ % (rm, num)) 
114 orm. dbDump() 
115 
116 printf('\n*** Drop users table') 
117 orm.dropQ) 
118 printf('\n*** Close cxns') 
119 orm.finish() 
120 
121 if name == ' main 
122 main() 
逐 行 解 释 


第 1 一 13 íf 

和 预想 中 的 一 样 ， 我 们 从 模块 和 常量 导入 开始 。 我 们 遵循 风格 指南 的 建议 ， 首 先导 入 
Python 标准 库 中 的 模块 (distutils 、os.path、random )， 然 后 是 第 三 方 或 外 部 模块 
(sqlalchemy)， 最 后 是 应 用 的 本 地 模块 (ushuffle_dbU )， 该 模块 会 给 我 们 提供 主要 的 常量 
和 工具 函数 。 

另 一 个 常量 是 数据 库 源 名 称 (DSN)， 你 可 以 将 其 想象 为 数据 库 连 接 的 URI。 在 本 书 之 前 
的 版 本 中 ， 这 个 应 用 只 支持 MySQL。 所 以 这 里 又 加 入 了 对 SQLite 的 支持 。 在 之 前 看 到 的 
ushuffle dbU.py 应 用 中 ,我 们 曾 使 用 过 SQLite 的 文件 系统 , 而 在 这 里 将 使 用 它 的 内 存 版 本 (第 
1219 。 
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核心 提示 : Active Record 模式 

Active Record 是 一 种 软件 设计 模式 https://en.wikipedia.org/wiki/Active record pattern )， 它 
会 把 对 象 的 操作 与 数据 库 的 动作 对 应 起 来 。ORM 对 象 本 质 上 表示 的 是 数据 库 中 的 一 行 记 
录 ,， 所 以 当 创建 一 个 对 象 时 ,也 就 自动 在 数据 库 中 写 入 了 其 表示 的 数据 。 更 新 对 象 也 一 样 ， 
会 更 新 对 应 的 行 。 同 理 ， 移 除 一 个 对 象 时 ， 也 会 在 数据 库 中 删除 对 应 的 行 。 

起 初 ，SQLAlchemy 并 没有 在 声明 层 中 使 用 可 以 让 ORM 复杂 性 降低 的 Active 
Record， 而 是 使 用 了 “数据 映射 器 ”模式 ， 在 这 种 模式 下 对 象 没有 修改 数据 库 本 身 的 能 
力 ， 相 反 地 ， 它 会 随 着 用 户 要 求 的 行为 来 使 那些 改变 发 生 。 一 个 ORM 可 以 作为 提交 原 
E SQL 语句 的 替代 品 ， 但 是 开发 者 仍然 需要 为 将 持久 性 的 插入 、 更 新 和 删除 显示 对 应 到 
数据 库 操作 而 负责 。 

对 于 类 Active Record 接口 的 渴望 ,催生 了 诸如 ActiveMapper 和 TurboEntity 等 项 目的 
创建 。 最 终 ， 这 两 种 接口 都 被 Elixir (http://elixirematiade ) 所 替代 ，Elixir 也 成 为 了 
SQLAlchemy 最 流行 的 声明 层 。 一 些 开 发 者 认为 它 在 本 质 上 与 Rails 类 似 ， 而 其 他 开发 者 
则 认为 它 过 于 简单 ， 抽 和 象 掉 了 太 多 的 功能 。 

然而 ，SQLAlchemy 最 终 也 将 其 自 带 的 声明 层 修改 为 Active Record 模式 。 它 更 加 
轻 量 级 、 简 单 ， 能 够 更 好 地 完成 任务 ， 所 以 我 们 会 在 例子 中 使 用 这 个 对 初学 者 更 友好 
的 声明 层 。 不 过 ， 如 果 你 觉得 它 过 于 轻 量 级 ， 也 可 以 使 用 _table_ 对象 进行 更 加 传统 
的 访问 。 


第 15~23 行 

下 一 个 代码 块 使 用 了 SQLAIchemy 的 声明 层 。 本 部 分 会 定义 与 数据 库 操作 等 效 的 对 象 。 
正如 前 面 的 核心 提示 所 述 ， 它 可 能 没有 第 三 方 工具 的 功能 丰富 ， 但 是 在 这 个 简单 的 例子 中 已 
经 足够 了 。 

为 了 使 用 它 ， 必 须 先导 入 sqlalchemy.ext.declarative_base ($E 7 行 )， 然 后 使 用 它 创 建 一 
个 Base 类 (第 15 行 )， 最 后 让 你 的 数据 子 类 继承 自 这 个 Base 类 (B 1679 。 
类 定义 的 下 一 个 部 分 包含 了 一 个 _tablename “属性 ， 它 定义 了 映射 的 数据 库 表 名 。 也 可 
以 显 式 地 定义 一 个 低级 别 的 sqlalchemy.Table 对 象 , 在 这 种 情况 下 需要 将 其 写 为 、table . 在 
本 应 用 中 ， 使 用 了 一 种 混合 方法 ， 大 多 数 情 况 下 使 用 对 象 进行 数据 行 的 访问 ， 不 过 也 会 使 用 
表 级 别 的 行为 《创建 和 删除 ) 保存 表 〈 第 41 衍 。 
接 下 来 是 “ 列 ” 属 性 ， 可 以 通过 查阅 文档 来 获取 所 有 支持 的 数据 类 型 。 最 后 ， 有 一 个 
_ str0 方法 定义 ， 用 来 返回 易于 阅读 的 数据 行 的 字符 串 格式 。 因 为 该 输出 是 定制 化 的 〈 通 
过 ttormatO 函 数 的 协助 )， 所 以 不 推荐 在 实践 中 这 样 使 用 。 如 果 你 想 在 其 他 应 用 中 复 用 这 段 代 
码 ， 会 发 现 很 困难 ， 因 为 你 可 能 会 希望 输出 的 格式 有 所 不 同 。 更 可 能 的 方法 是 ， 对 其 进行 子 
类 化 ， 并 修改 子 类 的 _str0 “方法 。SQLAlchemy 是 支持 表 的 继承 的 。 
















































































































































































































































































































































































第 6 章 数据 库 编程 233 





第 25 一 42 行 

和 ushuffle_dbU.connect() 相 似 ， 类 的 初始 化 方法 执行 了 所 有 可 能 的 操作 以 便 得 到 一 个 可 
的 数据 库 ， 然 后 保存 其 连接 。 首 先 ， 它 会 尝试 使 用 DSN 来 创建 数据 库 引 擎 。 引 警 是 主要 的 
数据 库 管理 器 。 为 了 便于 调试 ， 你 可 能 会 希望 看 到 ORM 生成 的 SQL 语句 。 为 了 做 到 这 点 ， 
只 需要 设置 一 个 echo 参数 即 可 ， 比 如 : create_engine('sqlite:///:memory:', echo=True)。 

如 果 引 擎 创建 失败 〈 第 29—30 行 )， 则 意味 着 SQLAlchemy 不 支持 所 选 的 数据 库 ， 通 
会 抛 出 InportError， 因 为 它 没 有 找到 已 安装 的 适配器 。 在 这 种 情况 下 ， 我 们 会 回 到 setupOE 
数 中 并 向 用 户 通知 失败 。 

假设 引擎 已 经 创建 成 功 ， 下 一 步 是 尝试 数据 库 连 接 。 通 常情 况 下 ， 连 接 失 败 意 味 着 数据 
库 本 身 〈 或 其 服务 器 ) 是 不 可 达 的 ， 不 过 在 本 例 中 则 是 因为 我 们 准备 用 来 存储 数据 的 数据 库 
不 存在 造成 的 ， 所 以 我 们 会 尝试 在 这 里 创建 这 个 数据 库 ， 并 重新 进行 连接 (第 34 一 37 行 )。 
需要 注意 的 是 ， 这 里 使 用 了 os.path.dirname() 来 截取 掉 数 据 库 名 ， 并 保留 了 DSN 中 的 剩余 部 
分 ， 从 而 使 数据 库 连 接 可 以 正常 运行 〈 第 35 衍 。 

这 里 是 本 应 用 中 唯一 使 用 原生 SQL 语句 的 地 方 (第 36 行 )， 因 为 这 是 一 个 典型 的 操作 任 
务 ， 而 不 是 面向 应 用 的 任务 。 所 有 其 他 的 数据 库 操作 都 是 发 生 在 表 上 的 ， 它 们 通过 对 象 操作 
或 者 通过 用 委托 调用 数据 库 表 的 方法 (更 多 内 容 会 在 第 44 一 70 行 的 解释 中 讲解 )。 

这 段 代 码 的 最 后 一 部 分 (第 39 一 42 行 ) 会 创建 一 个 会 话 对 象 , 用 于 管理 单独 的 事务 对 象 ， 
当 涉 及 一 个 或 多 个 数据 库 操 作 时 ， 可 以 保证 所 有 要 写 入 的 数据 都 必须 提交 。 然 后 将 这 个 会 话 
对 象 保 存 ， 并 将 用 户 的 表 和 引擎 作为 实例 属性 一 同 保存 下 来 。 引 擎 与 表 的 元 数据 进行 了 额外 
的 绑 定 (第 42 行 )， 意 味 着 这 张 表 的 所 有 操作 都 会 绑 定 到 这 个 指定 的 引擎 中 〈 也 可 以 将 其 绑 
定 到 其 他 引擎 或 连接 上 )。 

第 4 一 70 行 

接 下 来 的 3 个 方法 是 应 用 中 核心 的 数据 库 功 能 ， 包括 行 的 插入 (第 44—49 行 )、 更 新 
(第 51 一 60 行 ) 和 删除 (第 62~70 íT). HAH T session.add_allO 7rd, ORME ALIEN 
的 方式 产生 一 系列 的 插入 操作 。 最 后 ， 你 还 可 以 决定 是 像 我 们 一 样 进行 提交 (第 49 行 ) 
还 是 进行 回 滚 。 

update() 和 delete() 方 法 都 存在 会 话 查询 的 功能 ， 它 们 使 用 query.filter_by0 方 法 进行 查找 。 
随机 更 新 会 选择 一 个 成 员 ， 通 过 改变 ID 的 方法 ,将 其 从 一 个 项 目 组 (fr) 移动 到 另 一 个 项 目 
组 (to)。 计 数 器 (i) 会 记录 有 多 少 用 户 会 受到 影响 。 删 除 操作 则 是 根据 ID Gm) 随机 选择 
一 个 理论 公司 项 目 并 假设 已 将 其 取消 ,因此 项 目 中 的 所 有 员工 都 将 被 解雇 。 当 操作 要 执行 时 ， 
需要 通过 会 话 对 象 进行 提交 。 

需要 注意 的 是 ， 还 有 一 些 在 应 用 中 没有 使 用 到 的 查询 对 象 ， 它 们 与 update0 和 deleteO4H 
等 效 。 由 于 它们 可 以 批量 操作 并 返回 行 数 ， 因 此 可 以 减少 必要 的 代码 行 数 。 在 本 章 最 后 的 练 
习 中 ， 会 要 求 使 用 这 些 方法 对 ushuffle sad.py 进行 修改 。 

下 面 是 一 些 比较 常用 的 查询 方法 。 
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题 














。 filter byO: 将 指定 列 的 值 作为 关键 字 参 数 以 获取 查询 结果 。 


。 filter(): 与 flter_by0 相 似 , 不 过 更 























与 query.filter(User.userid==1) 相 同 。 
e order by0: 与 SQL 的 ORDER BY 指令 类 似 。 默 认 情 况 下 是 升序 的 。 需 要 导入 
sqlalchemy.descO 使 其 降序 排列 。 
。 limit): 5 SQL 的 LIMIT 指令 类 似 。 
。 offset): 与 SQL 的 OFFSET 指令 类 似 。 
e alld: 返回 匹配 查询 的 所 有 对 象 。 
。 on): 返回 匹配 查询 的 唯一 一 个 (下 一 个 ) 对 象 。 








e first: 返回 




















匹配 查询 的 第 一 个 对 象 。 











加 灵活 ,还 可 以 使 用 表达 式 。 比 如 query filter_by(userid=1) 














e join0: 按照 给 定 的 JOIN 条 件 创建 SQL JOIN 语句 。 
e update: 批量 更 新 行 。 
e delete): 批量 删除 行 。 





这 些 方法 中 的 大 多 数 都 会 返 
query.order by(desc(Users.userid)).limit(5).offset(5) . 
| LIMIT 和 OFFSET， 还 有 一 种 更 加 Python 化 的 方法 ， 即 对 查询 对 象 

















如 果 你 想 要 使 























进行 切片 操作 ， 比 如 
20 个 用 户 。 
































回 另 一 个 Query 对 象 ， 因 此 可 以 将 它们 串联 起 来 ， 比 如 ， 























，4qguery.order_by(Users.userid)[10:20] 可 以 表示 用 户 ID 最 小 的 第 11 一 








如 果 想 了 解 Query 方法 , 可 以 查阅 在 http://www. sqlalchemy.org/docs/orm/query.html#sqlalchemy. 





orm.query.Query 上 的 文档 。JOIN 本 身 就 是 一 个 很 大 的 话题 ， 可 以 在 http:/www.sqlalchemy.org/docs/ 


orm/t utorial. html#ormtutorial-joins 获取 更 


的 一 些 方法 。 















































def drop(self): 
self.users.drop() 
这 里 ， 我 们 决定 再 次 使 用 委托 (在 Core Python Language Fundamentals 或 Core Python 
Programming 中 关于 面向 对 象 编程 的 一 章 中 介 




















另 一 个 包含 该 属性 的 对 象 实例 (self.users)! 


self.users.create(0、selfusers.dropO 等 方法 时 〈 第 79 一 80 行 、 第 98 一 99 行 、 第 116 行 )， 就 可 以 




















其 虑 使 用 委托 。 
第 72~71 íT 




















多 具体 信息 。 在 本 章 的 练习 中 ， 你 可 以 有 机 会 操作 这 其 












































到 目前 为 止 ， 我 们 只 讨论 了 查询 这 种 行 级 别 的 操作 。 那 么 表 的 创建 和 删除 行为 呢 ? 是 不 
是 也 有 类 似 下 面 这 样 的 函数 呢 ? 








过 )。 委 托 是 指 一 个 实例 中 缺失 的 属性 需要 从 
























































dbDump() 方 法 负责 向 屏幕 上 显示 正 胡 
ushuffle dbU.py 中 相似 的 样式 输 昌 























获得 的 方法 。 比 如 ， 当 你 看 到 __getattr_0、 


























有 的 输出 。 该 方法 从 数据 库 中 获取 数据 行 ， 并 按照 
数据 。 实 际 上 ， 它 们 几乎 是 相同 的 。 





PNM A i 
方法 ， 因 为 创建 这 两 个 方法 实际 上 只 
有 新 增 的 功能 ， 
有 在 属性 查找 失败 时 才 会 被 调用 





























main(0 函 数 驱 动 应 
有 的 数据 库 操作 。 本 部 分 脚本 与 最 初 
是 可 选 的 ， 不 过 在 这 个 脚本 ushuffle_s 
没有 起 到 任何 作 月 








第 79—83 行 


当 我 们 调 月 
] getatr _0, JF Ka 
然后 传递 这 个 方法 调 
最 后 一 个 方法 是 
个 lambda 函数 ， 不 过 这 
































企 了 委托 ， 通 过 使 用 _getattr _0 可 以 让 我 们 
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是 分 别 调用 
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意 地 避 开 创建 drop0 和 created) 























那么 为 什么 还 要 创建 额外 的 函数 来 维护 昵 ? 需要 提醒 的 是 ，_getattr_(0 方 法 只 






































第 85 一 122 行 


13 
finish), H 
里 没有 














Lm 








于 最 后 关闭 连接 的 清理 工作 。 是 的 ， 我 们 本 可 以 将 





























这 样 做 是 因为 ; 





的 运行 。 该 函数 中 创建 了 一 个 SQLAlchemyTest 对 象 ， 并 将 其 

















见 本 章 结 











日 。 该 参数 只 是 
尾 的 练习 )。” 





的 应 月 





Hushuffle_dbU.py FEI. ii 
ad.py 和 接 下 来 的 SQLObject 版 本 脚本 ushuffle_so.py 中 并 





并 没 





了 表 的 drop0 和 create() 方 法 而 已 。 在 这 是 









































这 和 无 论 如 何 都 会 调用 的 _ getattribute_0 正 相反 )。 
H orm.dropO 并 且 发 现 没 有 这 个 方法 时 ， 就 会 调用 getattr(orm,'drop. JENS, iil 
名 委托 给 self.users。 解 释 器 会 发 现 self.users 存在 一 个 drop 
self.users.drop()F o 















































HA 














青 理 游标 、 连 接 等 需要 不 止 一 条 语句 。 





























于 所 


















































当 运 行 该 脚本 时 ，Windows PC 上 的 输出 会 和 下 面 所 示 的 输出 相似 。 


C:\>python ushuffle sad.py 


*** Connect to 


Choose a database system: 


(M) yS 


OL 


(G) adfly 
(S)QLite 


Enter choice: s 


*** Create users table 


'test' 


database 














(drop old one if appl.) 


*** Insert names into table 


Faye 


Amy 


Dave 


LOGIN USERID 


6812 


Serena 7003 


7209 
7306 








© 这 段 话 和 本 书 





不 再 

















LH, 














PROJID 


2 


4 
2 
3 











第 2 版 相同 ， 但 是 
该 脚本 中 参数 名 为 dsn。 一 一 译 者 注 





F3 


第 





3 版 








Pp 实际 上 
































FE 意 数据 库 的 参数 db 














个 占 位 符 , 方便 你 在 应 用 中 添加 对 其 他 RDBMS 的 支持 ( 参 


已 经 使 用 了 MySQL 和 SQLite 两 个 数据 库 ，db 参数 并 
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Larry 7311 2 
Mona 7404 2 
Ernie 7410 1 
Jim 7512 2 
Angela 7603 t 
Stan 7607 2 
Jennifer 7608 4 
Pat 7711 2 
Leslie 7808 3 
Davina 7902 3 
Elliot 7911 4 
Jess 7912 2 
Aaron 8312 3 

1 


Melissa 8602 


*** Move users to a random group 


(3 users moved) from (1) to (3) 


LOGIN USERID PROJID 


Faye 6812 2 
Serena 7003 4 
Amy 7209 2 
Dave 7306 3 
Larry 7311 2 
Mona 7404 2 
Ernie 7410 3 
Jim 7512 2 
Angela 7603 3 
Stan 7607 2 
Jennifer 7608 4 
Pat 7711 2 
Leslie 7808 3 
Davina 7902 3 
Elliot 7911 4 
Jess 7912 2 
Aaron 8312 3 
Melissa 8602 3 


*** Randomly delete group 
(group #3; 7 users removed) 


LOGIN USERID PROJID 
Faye 6812 2 
Serena 7003 4 
Amy 7209 2 
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Larry 7311 2 
Mona 7404 2 
Jim 7512 2 
Stan 7607 2 
Jennifer 7608 4 
Pat Zn 2 
Elliot 4911 4 
Jess 7912 2 


*** Drop users table 


*** Close cxns 
C:\> 


显 式 /“ 经 典 ” 的 ORM 访问 


之 前 曾 提 到 过 ， 在 本 例 中 选择 使 用 的 是 SQLAlchemy 的 声明 层 。 不 过 ， 我 们 认为 学 习 
ushuffle_sad.py〔 用 户 洗 牌 应 用 的 SQLAIchemy 声明 层 版 本 ) 的 “ 显 式 ”形式 同样 也 具有 教 
育 意 义 ， 这 里 将 其 命名 为 ushuffle_sae.py《〈 用 户 洗 牌 应 用 的 SQLAIchemy 显 式 版 本 )。 你 会 发 
现 这 两 个 脚本 看 起 来 会 非常 相似 。 

由 于 该 脚本 和 ushuffle_sad.py 非常 相似 ， 因 此 不 再 需要 提供 逐 行 的 解释 ， 不 过 可 以 从 
http://corepython.com 上 下 载 到 这 个 版 本 的 逐 行 解释 。 这 里 给 出 该 版 本 一 方面 是 为 了 将 本 书 之 
前 两 版 中 的 脚本 保留 下 来 ， 另 一 方面 是 为 了 让 读者 能 够 对 显 式 使 用 和 声明 层 使 用 进行 对 比 。 
在 本 书 之 前 的 版 本 发 行 后 ，SQLAlchemy 也 逐渐 变 成 熟 ， 所 以 我 们 也 希望 能 够 与 时 俱 进 。 下 
面 是 ushuffle_sae.py 的 程序 。 























































































































































































































#!/usr/bin/env python 


from distutils.log import warn as printf 

from os.path import dirname 

from random import randrange as rand 

from sqlalchemy import Column, Integer, String, create engine, 
exc, orm, MetaData, Table 

from sqlalchemy.ext.declarative import declarative base 

from ushuffle dbU import DBNAME, NAMELEN, randName, FIELDS, 


tformat, cformat, setup 


DSNs = { 
'mysql': 'mysql://root@localhost/%s' % DBNAME, 
"sqlite': 'sqlite:///:memory:', 

} 


class SQLAlchemyTest (object): 
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dH 














def — init (self, dsn): 


eng = create engine (dsn) 
except ImportError, e: 


raise RuntimeError() 


try: 
cxn = eng.connect () 
except exc.OperationalError: 
try: 
eng = create engine (dirname (dsn)) 
eng.execute('CREATE DATABASE $s' % DBNAME).close() 
eng = create engine (dsn) 
cxn = eng.connect () 
except exc.OperationalError: 


raise RuntimeError() 


metadata = MetaData() 
self.eng = metadata.bind = eng 


try: 
users = Table('users', metadata, autoload-True) 





except exc.NoSuchTableError: 
users = Table('users', metadata, 
Column('login', String(NAMELEN)), 
Column('userid', Integer), 
Column('projid', Integer), 
) 
self.cxn - cxn 


self.users = users 


def insert (self): 
d = [dict (zip(FIELDS, [who, uid, rand(1,5)1)) \ 
for who, uid in randName() ] 


return self.users.insert().execute(*d).rowcount 


def update (self): 
users = self.users 
fr. = rand(1 5) 
to = rand(1,5) 
return (fr, to, 
users.update (users.c.projid==fr) .execute ( 
projid=to) .rowcount) 


def delete(self): 


users = self.users 
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rm = rand(1,5) 
return (rm, 


users.delete(users.c.projid==rm) .execute() .rowcount) 


def dbDump (self): 
printf('Mn$s' $ ''.join(map(cformat, FIELDS))) 
Users = self.users.select().execute() 
for user in users.fetchall(): 
printf(''.join(map(tformat, (user.login, 


user.userid, user.projid)))) 


def _ getattr (self, attr): 
return getattr(self.users, attr) 


def finish(self): 
self.cxn.close() 


def main(): 
printf('*** Connect to $r database' $ DBNAME) 
db = setup() 


if db not in DSNs: 
printf('\nERROR: $r not supported, exit' $ db) 


return 


try: 
orm = SQLAlchemyTest (DSNs [db] ) 
except RuntimeError: 
printf('\nERROR: $r not supported, exit' % db) 


return 


printf('\n*** Create users table (drop old one if appl.)') 
orm. drop (checkfirst=True) 


orm.create () 


printf ('\n*** Insert names into table') 
orm.insert () 


orm. dbDump () 


printf ('\n*** Move users to a random group') 

fr, to, num = orm.update() 

printf('Nt($d users moved) from ($d) to ($d)' $ (num, fr, to)) 
orm. dbDump () 


printf ('\n*** Randomly delete group') 


rm, num = orm.delete() 
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printf('Nt(group #%d; $d users removed)' $ (rm, num) ) 
orm. dbDump () 


printf ('\n*** Drop users table') 
orm. drop () 
printf('\n*** Close cxns') 


orm. finish () 


if name == mains 





main () 


ushuffle sad.py 和 ushuffle_sae.py 的 主要 区 别 包 括 以 下 几 方 面 。 

e 创建 Table 对 象 ， 而 不 是 声明 Base 对 象 。 

。 没有 使 用 Session， 而 是 执行 单独 的 工作 单元 ， 进 行 自动 提交 ， 并 且 没 有 事务 性 。 

。 使 用 Table 对 象 进行 所 有 的 数据 库 交 互 ， 而 不 是 Session Query. 

为 了 说 明 会 话 和 显 式 操作 并 不 是 关联 在 一 起 的 , 你 可 以 尝试 将 Session 混入 到 ushuffle_sae.py 
中 作为 练习 。 既 然 你 已 经 对 SQLAlchemy 进行 了 学 习 ， 下 面 就 让 我 们 转 到 SQLObject E, KE 
一 个 相似 的 工具 。 


6.3.5 SQLObject 


SQLObject 是 Python 第 一 个 主要 的 ORM。 实 际 上 ， 它 已 经 存在 超过 十 年 了 ! 其 作者 Ian 
Bicking 在 2002 年 10 月 发 布 了 SQLObject 的 第 一 个 alpha 版 本 (SQLAIchemy 直到 2006 年 2 
月 才 出 现 )。 在 本 书写 作 时 ，SQLObject 仅 支 持 Python 2. 

正如 之 前 所 提 到 的 ，SQLObject 更 加 面向 对 象 ( 会 有 更 加 Python 化 的 感觉 )， 并 且 在 早 
期 就 已 经 实现 了 隐 式 的 对 象 -数据 库 访 问 的 Active Record 模式 ， 不 过 它 无 法 让 你 更 自由 地 使 
原生 SQL 语句 进行 更 加 即席 或 定制 化 的 查询 。 许 多 用 户 认为 学 习 SQLAlchemy 更 加 简单 
不 过 哪 种 ORM 更 加 易学 还 需要 读者 自行 判断 。 下面 让 我 们 看 下 示例 6-3 中 的 ushuffle_so.py， 
该 脚本 是 ushuffle_dbU.py 和 ushuffle_sad.py 针对 SQLObject 的 移植 版 本 。 












































































































































































































































示例 6-3 SQLObject ORM 示例 Cushuffle so.py) 


这 个 兼容 Python 2.zx 和 3.x 版 本 的 用 户 洗 牌 应 用 使 用 sQLObject ORM 搭 配 后 端 数 据 库 MysQL 或 SQLite。? 
#!/usr/bin/env python 





















































from distutils.log import warn as printf 

from os.path import dirname 

from random import randrange as rand 

from sqlobject import * 

from ushuffle dbU import DBNAME, NAMELEN, randName, FIELDS, 
tformat, cformat, setup 


- Os Uta 4 ot 2 o— 























© 如 本 节 所 述 ，SQLObject 并 不 支持 Python 3.x 版 本 。 一 一 译 者 注 
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DSNs = { 
'mysql': 'mysql://root@localhost/%s' % DBNAME, 
'sqlite': 'sqlite:///:memory:', 

} 


class Users(SQLObject): 
login = StringCol(length-NAMELEN) 
userid = IntCol() 
projid IntCol(O 
def str (self): 
return ''.join(map(tformat, 
(self.login, self.userid, self.projid))) 


class SQLObjectTest(object): 
def _ init (self, dsn): 
try: 
cxn = connectionForURI(dsn) 
except ImportError: 
raise RuntimeError() 
try: 
cxn.releaseConnection(cxn.getConnection()) 
except dberrors.OperationalError: 
cxn = connectionForURI(dirname(dsn)) 
cxn.query("CREATE DATABASE %s" % dbName) 
cxn - connectionForURI(dsn) 
self.cxn = sqlhub.processConnection = cxn 


def insert(self): 
for who, userid in randName(): 
Users(login=who, userid=userid, projid=rand(1,5)) 


def update(self): 
fr 


= rand(1,5) 
to = rand(1,5) 
i= -1 


users = Users.selectBy(projid=fr) 

for i, user in enumerate(users): 
user.projid = to 

return fr, to, i«1 


def delete(self): 
rm = rand(1,5) 
users = Users.selectBy(projid=rm) 
i = -1 
for i, user in enumerate(users): 
user.destroySelf() 
return rm, i+1 


def dbDump(self): 
printf('\n%s' 96 ''.join(map(cformat, FIELDS))) 
for user in Users.select(): 
printf(user) 


def finish(self): 
self.cxn.close() 
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65 def main(): 


66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 if 
102 


printf('*** Connect to %r database' % DBNAME) 

db = setup() 

if db not in DSNs: 
printf('NnERROR: %r not supported, exit' % db) 
return 


try: 

orm = SQLObjectTest(DSNs[db]) 

except RuntimeError: 
printf('NnERROR: %r not supported, exit' % db) 
return 


printf('\n*** Create users table (drop old one if appl.)') 
Users.dropTable(True) 
Users.createTable() 


printf('\n*** Insert names into table') 
orm.insert() 
orm.dbDump () 


printf('\n*** Move users to a random group') 

fr, to, num = orm.update() 

printfC'\t(%d users moved) from (Xd) to (%d)' % (num, fr, to)) 
orm.dbDump OO) 


printf('\n*** Randomly delete group') 

rm, num = orm.delete() 

printf('Nt(group #%d; %d users removed)' % (rm, num)) 
orm.dbDump ) 


printf('Mn*** Drop users table') 
Users.dropTable() 

printfC'\n*** Close cxns') 

orm. finishQ) 


name == main 


'. 





main() 


逐 行 解释 


第 1~12 行 








除了 使 用 SQLObject 1K # SQLAlchemy 之 外 ， 本 模块 中 的 导入 和 常量 声明 都 和 
ushuffle sad.py 完全 相同 。 


第 14—20 行 


Users 表 扩 展 了 SQLObject.SQLObject 类 。 我 们 定义 了 和 之 前 相同 的 列 ， 同 样 也 提供 了 用 











于 显示 输出 的 _ str_0 方 法 。 


第 22~34 行 





这 个 类 的 构造 函数 进行 了 所 有 可 能 的 操作 ， 以 确保 得 到 一 个 可 用 的 数据 库 ， 然 后 返回 其 
连接 , 这 里 和 SOLAlchemy 的 例子 是 类 似 的 。 同样 地 , 这 里 也 是 本 脚本 中 唯一 能 看 到 真实 SQL 


语句 的 地 方 。 代 码 会 按照 如 下 描述 运行 ， 并 在 所 有 错误 发 生 时 进行 异常 处 理 。 
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。 ”尝试 对 已 存在 的 表 建 立 连接 (第 29 行 )， 如 果 运 行 成 功 ， 则 本 步 完 成 。 它 必须 规避 
像 RDBMS 适配器 不 可 用 、 服 务 器 不 在 线 以 及 数据 库 不 存在 等 异常 。 
. 否则， 创建 表 ， 如 果 创 建成 功 ， 则 本 步 完 成 E 31—33 15 。 
e 成 功 后 ， 在 self.cxn 中 保存 连接 对 象 。 
第 36—55 行 
数据 库 操作 将 会 在 这 些 行 产生 ， 包 括 插入 《〈 第 36 一 38 行 )、 更 新 (第 40~47 行 ) 和 删除 
CE 49—55 行 )。 这 些 函 数 会 和 SQLAlchemy 中 的 函数 相等 价 。 





















































核心 提示 (黑客 角 ): 在 Python 中 简化 insertl 方 法 为 一 个 (长 ) 行 
可 以 将 insert0 方 法 的 代码 简化 为 单行 比较 难 理解 的 代码 。 


[Users(**dict(zip(FIELDS, (who, userid, rand(1,5))))) \ 
for who, userid in randName()] 


我 们 并 不 会 鼓励 使 用 这 种 降低 可 读 性 或 者 显 式 使 用 列表 推导 执行 代码 的 方法 , 不 过 要 
清楚 的 是 ， 已 有 的 解决 方法 存在 一 个 缺陷 : 它 需要 你 在 创建 新 对 象 时 显 式 地 为 列 命名 ， 并 
用 它 作 为 关键 字 参 数 。 通 过 使 用 FIELDS， 你 不 再 需要 知道 列 名 ， 也 不 需要 在 列 名 改变 时 
修改 大 量 代码 ， 尤 其 是 当 FIELDS 在 某 个 配置 ( 非 应 用 ) 模块 中 时 。 


第 57 一 63 行 
这 段 代码 还 是 从 相同 的 〈 且 为 预料 中 的 ) dbDump(0 方 法 开始 ， 该 方法 会 从 数据 库 中 拉 取 
数据 行 ， 然 后 在 屏幕 上 进行 显示 。 而 finishO WIE C58 62 一 63 行 ) 用 于 关闭 连接 。 在 这 里 ， 
不 能 使 用 SQLAlchemy 例子 中 的 委托 方式 进行 表 的 删除 操作 ， 因 为 这 里 本 应 是 委托 的 方法 称 
为 dropTable()， 而 不 是 dropO. 
第 65 一 102 íf 
这 里 是 main0 函 数 。 它 和 ushuffle_sad.py 中 的 运行 很 相似 。 同 样 地 ，db 参数 和 DSN 常量 
可 以 用 于 在 这 些 应 用 中 添加 对 其 他 RDBMS 的 支持 (参见 本 章 最 后 的 练习 )。 
下 面 是 你 在 运行 ushuffle so.py 时 的 输出 结果 示例 (和 ushuffle dbU.py 以 及 
ushuffle_sa?.py 脚本 的 输出 非常 相似 )。 
$ python ushuffle so.py 
*** Connect to 'test' database 









































































































































Choose a database system: 
(M) ySQL 
(G) adfly 


(S)OLite 


Enter choice: s 
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EH 
t 





主题 





以 


*** Create users table (drop old one if appl.) 


*** Insert names into table 


LOGIN 
Jess 
Ernie 
Melissa 
Serena 
Angela 
Aaron 
Elliot 
Jennifer 
Leslie 
Mona 
Larry 
Davina 
Stan 


Faye 
Dave 


USERID 
7912 
7410 
8602 
7003 
7603 
8312 
7911 
7608 
7808 
7404 


73 


Mi 


7902 
7607 


75 
77 


12 
Mi 


7209 


68 





12 


7306 


PROJID 
2 





BrP DY FP Po WP RA A 


*** Move users to a random group 


(5 users moved) from (4) to (2) 


LOGIN 
Jess 
Ernie 
Melissa 
Serena 
Angela 
Aaron 
Elliot 
Jennifer 
Leslie 
Mona 
Larry 
Davina 
Stan 
Jim 

Pat 

Amy 
Faye 
Dave 


USERID 
7912 
7410 
8602 
7003 


60 


3 


8312 
7911 
7608 
7808 
7404 


731 


1 


7902 
7607 


751 
L1 


77 


2 


7209 


681 





2 


7306 


PROJID 
2 





OPN PN DY CD 
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*** Randomly delete group 
(group 43; 2 users removed) 


LOGIN USERID PROJID 








Jess 7912 2 
Ernie 7410 

Melissa 8602 

Serena 7003 

Angela 7603 L 
Aaron 8312 2 
Jennifer 7608 L 
Leslie 7808 2 
Mona 7404 2 
Larry 7311 |: 
Stan 7607 2 
Jim 7512 2 
Pat 7711 L 
Amy 7209 2 
Faye 6812 L 
Dave 7306 2 


*** Drop users table 


*** Close cxns 


$ 


6.4 非 关 系数 据 库 


本 章 开 始 介绍 了 SQL 以 及 关系 数据 库 。 然 后 展示 了 如 何 从 此 类 系统 中 获得 和 写 入 数据 ， 
并 且 给 出 了 移植 到 Python 3 的 简短 教程 。 之 后 又 讲述 了 ORM, 以久 ORM 是 如 何 让 用 户 更 多 
地 通过 “对 象 ”的 方式 来 避免 SQL 语句 的 。 不 过 ， 从 底层 上 来 说 ， 无 论 是 SQLAlchemy 还 是 
SQLObject 都 是 代 蔡 你 来 生成 SQL 的 。 本 章 最 后 一 节 仍然 会 关注 对 象 ， 不 过 会 将 目光 转移 出 
关系 数据 库 。 


6.4.1 NoSQL 介绍 


Web 和 社交 服务 的 流行 趋势 会 导致 产生 大 量 的 数据 , 并 且 / 或 者 数据 产生 的 速率 可 能 要 比 
关系 数据 库 能 够 处 理 得 更 快 。 可 以 想象 Facebook 或 Twitter 生成 的 大 量 数据 。 比 如 ,Facebook 
游戏 或 者 Twitter 流 数据 处 理应 用 的 开发 者 可 能 会 在 应 用 中 以 每 小 时 数 百 万 行 (或 对 象 ) 的 速 
率 向 持久 化 存储 中 进行 写 入 。 这 个 可 扩展 性 问题 最 终 造就 了 非 关系 数据 库 或 者 NoSQL 数据 
库 的 创建 、 爆 炸 性 增长 以 及 部 署 。 
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有 很 多 此 类 数据 库 
就 有 对 象 数据 库 、 








进一步 研究 。 在 本 了 











用 应 用 


HZA 














题 






































键 - 值 对 存储 、 文 档 存储 (或 者 数 
展 记录 / 宽 列 数据 库 、 多 值 数据 库 等 很 多 下 























可 以 进行 选择 ， 不 过 它们 的 类 型 并 不 完全 相同 。 
ETE B 





Eža 





单 就 非 关系 数据 库 而 言 ， 
WE. Xe ME. Fm 



































6.4.2 MongoDB 


MongoDB 近期 的 流行 度 正在 大 幅 提 升 。 除 了 | 
己 的 定期 会 议 。 有 很 多 主流 网 站 者 
SourceForge 等 。 可 以 在 ht 
































TP. Xi. tt 


类。 本 章 结尾 会 给 出 一 些 链接 来 帮助 你 对 NoSQL 进行 
书写 作 时 ， 有 一 个 非常 流行 的 文档 存储 非 关 系数 据 库 叫做 MongoDB. 








区 和 专业 支持 外 ， 它 还 有 自 












































到 
BY 





关系 数据 库 的 区 别 ， 就 会 发 现 它 介 于 简单 的 键 - 值 对 存储 (如 
Dynamo 等 ) 与 列 存储 《如 
据 库 的 无 模式 衍生 品 ， 比 基 了 
灵活 。 一 般 情 况 下 
MongoDB〔 以 及 NoSQL) 的 一 些 术语 也 和 关系 数据 库 系 统 不 同 。 比 如 ， 关 系数 和 
要 考虑 的 是 行 和 列 ， 而 在 这 里 则 是 讨论 文档 、 


DES 


多 相关 信息 。 除 了 其 
中 存储 而 言 是 个 非常 好 的 选择 。 














了 是 其 优质 上 





























J, EU Craigslist, Shutterfly, foursquare, bit.ly, 
tp://www.mongodb.org/display/DOCS/Production+Deployments 上 获取 
I RSh RITENA MongoDB Xt FIA STZ 
HH, MongoDB 的 文档 存储 系统 是 使 


NoSQL 以 及 文档 
用 C++ 编写 的 。 


























H 








如 果 你 对 比 过 文档 存储 (MongoDB, CouchDB, Riak, Amazon SimpleDB) 与 其 他 非 























ii 

















F 列 的 存储 

















Redis, Voldemort, Amazon 
Cassandra, Google Bigtable 和 HBase) 之 间 。 它 有 点 像 关 系数 
更 简单 、 约 束 更 少 ， 但 是 比 普通 的 键 - 值 对 存储 更 加 
































> Fe © 
集合 等 “。 如 






































其 数据 会 另存 为 ISON WHR, JF ASMA 





果 想 要 了 解 更 多 关于 术语 变 











FR. BUA. WREAK 





n rpm 
的 




















更 


内 容 ， 可 以 查阅 http:/www.mongodb.org/displayDOCS/SQL+to+Mongo+Mapping+Chart 上 的 
SQL-Mongo 术 语 映射 表 。 


JH, 


aN 


它 的 存储 机 制 ， 对 于 
以 让 我 们 使 用 起 来 得 心 应 手 。 


MongoDB 将 数据 存储 了 











由 于 它 是 




















个 二 进 制 编码 的 序列 化 ， 




















开发 者 而 言 ， 




















中 也 包括 Python. 
6.4.3 PyMongo: MongoDB 和 Python 


尽管 Python 中 有 很 多 MongoDB 驱动 程序 ， 不 过 其 中 最 正式 的 一 个 是 PyMongo。 其 他 适 


配器 或 者 过 于 轻 量 级 , 或 者 有 专门 
MongoDB 相关 的 Python 包 。 可 以 依据 自己 





将 使 


EH 








MongoDB 4E 











Dna 


> 
Br 
TH 



































H PyMongo. 





O OK RRB 
列 对 应 的 应 该 是 MongoDB 的 字段 (field) ， 而 MongoDB 的 集合 对 








居 库 的 列 和 MongoDB 的 集合 放 到 一 起 ,会 产生 列 和 外 








I 意愿 尝试 其 中 














EA AY 





其 特殊 的 JSON 串 〈 文 档 ) 中 ， 可 以 将 其 想象 为 一 个 Python F 

因此 通常 也 会 称 其 为 BSON 格式 。 不 过 ， 不 用 去 管 
主要 想法 就 是 它 和 JSON 或 者 Python 字典 都 很 相似 ， 可 
流行 ， 所 以 在 大 多 数 平 台 上 都 有 其 适 






































13&. n] UAE http://pypi.python.org 上 搜索 mongo 来 查找 和 
的 任 





何 一 个 ， 不 过 在 本 例 中 我 们 








EE 





应 的 是 关系 数据 库 的 表 。 一 一 译 者 注 


价 的 误解 。 实 际 上 关系 数据 库 的 
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FA pymongo 包 的 另 一 个 好 处 是 它 已 经 移植 到 Python 3 中 了 。 鉴于 本 章 前 面 所 使 用 的 技 
AR, 这 里 只 需要 编写 一 个 Python 应 用 就 同时 可 以 在 Python 2 和 Python 3 中 运行 , 根据 你 执行 
脚本 使 用 的 解释 器 ， 它 会 利用 合适 的 pymongo 安装 版 本 。 

我 们 不 会 花费 时 间 来 具体 讲解 其 安装 方法 ， 因 为 这 已 经 超出 了 本 书 的 范围 ， 不 过 ， 你 可 以 从 
mongodb.org 上 下 载 MongoDB, ， 通 过 easy install 或 pip 安装 PyMongo 和 /或 PyMongo3 GEE, R 
在 Mac 上 安装 pymongo3 没有 任何 问题 , 但 是 在 Windows 上 安装 时 遇 到 了 进程 阻塞 的 问题 )。 无 论 
你 安装 的 是 哪个 版 本 或 者 两 个 版 本 都 安装 了 )， 其 导入 代码 都 是 一 样 的 :import pymongo。 
为 了 确认 MongoDB 已 经 安装 上 且 可 以 正常 运行 ， 可 以 查看 MongoDB 的 快速 入 门 指南 ， 
其 网 址 是 http://www.mongodb.org/display/DOCS/Quickstart; 而 要 确认 PyMongo 正常 运行 ,可 
以 通过 导入 pymongo 包 进 行 检 测 。 要 了 解 Python 中 MongoDB 是 如 何 使 用 的 ， 可 以 查阅 
PyMongo 的 教程 ， 其 网 址 是 http://api.mongodb.org/python/current/tutorial.html . 

我 们 在 这 里 要 做 的 是 将 已 有 的 用 户 洗 牌 应 用 〈ushuffle_ *.py) 进行 修改 ， 使 其 使 用 
MongoDB 作为 持久 化 存储 。 注 意 ， 本 应 用 和 之 前 使 用 SQLAlchemy 以 及 SQLObject 的 应 用 
都 很 相似 ， 不 过 MongoDB 的 开销 要 比 诸如 MySQL 的 典型 关系 数据 库 系 统 小 得 多 。 示 例 6-4 
PAS AF Python 2 和 Python 3 的 ushuffle_mongo.py， 接 下 来 是 其 解 行 解 释 。 
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ENT 








































































































示例 6-4 MongoDB 示例 Cushuffle_mongo.py) 



























































"i Python 2 和 Python 3 的 用 户 洗 牌 应 用 ， 其 中 使 用 了 MongoDB fll PyMongo. 
1 #!/usr/bin/env python 
2 





3 from distutils.log import warn as printf 

4 from random import randrange as rand 

5 from pymongo import Connection, errors 

6 from ushuffle dbU import DBNAME, randName, FIELDS, tformat, cformat 
7 

8 

9 


COLLECTION = 'users' 


10 class MongoTest(object): 
11 def _ init C(self): 


12 try: 

13 cxn = Connection() 

14 except errors.AutoReconnect: 

15 raise RuntimeError() 

16 self.db = cxn[DBNAME] 

17 self.users = self.db[COLLECTION] 
18 

19 def insert(self): 

20 self.users.insert( 

21 dict(login=who, userid=uid, projid=rand(1,5)) \ 
22 for who, uid in randName()) 
23 

24 def update(self): 

25 fr = rand(1,5) 

26 to = rand(1,5) 

27 i = -1 


28 for i, user in enumerate(self.users.find({'projid': fr})): 
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29 self.users.update(user, 

30 {'$set': {"projid': to}}) 

31 return fr, to, i41 

32 

33 def delete(self): 

34 rm = rand(1,5) 

35 i= -1 

36 for i, user in enumerate(self.users.find({'projid': rm})): 
37 self.users.remove(user) 

38 return rm, i+1 

39 

40 def dbDump(self): 

41 printf('\n%s' % ''.join(map(cformat, FIELDS))) 
42 for user in self.users.find(): 

43 printf(''.join(map(tformat, 

44 (user[k] for k in FIELDS)))) 

45 

46 def finish(self): 

47 self.db.connection.disconnect() 

48 

49 def main(): 

50 printf('*** Connect to %r database’ % DBNAME) 

51 try: 

52 mongo = MongoTest() 

53 except RuntimeError: 

54 printf('NnERROR: MongoDB server unreachable, exit') 
55 return 

56 

57 printf('Mn*** Insert names into table') 

58 mongo.insert() 

59 mongo . dbDump () 

60 

6l printf('\n*** Move users to a random group') 

62 fr, to, num = mongo.update() 

63 printf('\t(%d users moved) from (d) to (%d)' % (num, fr, to)) 
64 mongo.dbDump C) 

65 

66 printfC'\n*** Randomly delete group') 

67 rm, num = mongo.delete() 

68 printf('Nt(group #%d; %d users removed)' % (rm, num)) 
69 mongo.dbDump C) 

70 

71 printfC'\n*** Drop users table') 

72 mongo.db.drop collection(COLLECTION) 

73 printfC'\n*** Close cxns') 

74 mongo.finish(QO 

75 

76 if name == ' main ': 





77 main() 


第 1 一 8 行 
这 里 主要 导入 的 是 PyMongo 的 Connection 对 象 及 其 包 异 常 (errors)。 其 他 的 导入 行 在 本 
章 中 都 已 经 见 过 。 和 ORM 例子 中 一 样 ， 我 们 借用 了 之 前 的 ushuffle dbU.py 应 用 中 的 大 多 数 
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常量 和 通用 函数 。 最 后 一 名 设置 了 集合 〈“ 表 ”) A. 
第 10—17 行 
MongoTest 类 的 初始 化 方法 中 最 开始 的 部 分 创建 了 一 个 连接 ， 如 果 服 务 器 不 可 达 ， 则 抛 

出 异常 (第 12 一 15 行 )。 接 下 来 的 两 行 很 容易 被 忽略 ， 因 为 它们 很 像 是 普通 的 赋值 语句 ， 不 

过 实际 上 ， 它 们 会 创建 并 复 用 数据 库 (第 16 行 ) 及 “users” 人 集合， 你 可 以 将 集合 看 成 数据 

库 中 的 表 。 

关系 数据 库 中 的 表 会 对 列 的 格式 进行 定义 ,然后 使 遵循 这 个 列 定 义 的 每 条 记录 成 为 一 行 ; 

而 在 非 关 系数 据 库 中 ， 集 合并 没有 任何 模式 的 需求 ， 每 条 记录 都 可 以 有 其 特定 的 文档 。 可 以 

看 到 ， 在 这 段 代 码 中 并 没有 “数据 模型 ”的 类 定义 。 每 条 记录 都 定义 了 其 自己 的 模式 ， 所 以 

可 以 说 你 保存 的 任何 记录 都 会 写 入 集合 中 。 

第 19—22 行 
insert() 方 法 会 向 MongoDB 的 集合 中 添加 值 。 集 合 是 由 一 系列 文档 组 成 的 。 可 以 将 文档 

想象 为 Python 字典 格式 的 一 条 记录 。 通 过 使 用 dict0 工 厂 函 数 为 每 条 记录 创建 一 个 文档 ， 然 

后 将 所 有 文档 通过 生成 器 表达 式 的 方式 传递 给 集合 的 insert0 方 法 。 
第 24~31 行 
update0) 方 法 和 本 章 之 前 应 用 的 运行 方式 相同 。 区 别 是 集合 的 update0 方 法 可 以 给 开发 者 

相 比 于 典型 的 数据 库 系统 更 多 的 选项 。 在 这 里 (第 20—30 行 )， 使 用 了 MongoDB 的 $set 指 

令 ， 该 指令 可 以 显 式 地 修改 已 存在 的 值 。 
每 条 MongoDB 指令 都 代表 一 个 修改 操作 ， 使 得 开发 者 在 修改 已 存在 的 值 时 更 加 高 效 、 

有 用 以 及 便捷 。 除 了 $set 外 ， 还 有 一 些 操作 可 以 用 于 递增 字段 值 、 删 除 字 段 〈 键 - 值 对 )、 对 

数组 添加 /删除 值 等 。 

不 过 ， 在 更 新 之 前 ， 首 先 需 要 查询 系统 中 项 目 ID (projid) 与 要 更 新 的 项 目 组 相 匹配 的 

所 有 用 户 (第 28 行 )。 为 此 ， 需 要 使 用 集合 的 find0 方 法 ， 并 将 查询 条 件 传 进去 。 这 就 和 SQL 

的 SELECT 语句 一 样 。 

Collection.update() 方 法 还 可 以 用 来 修改 多 个 文档 ， 只 需要 将 multi 标志 设 为 True 即 可 。 

唯一 的 坏 消息 是 目前 该 操作 还 不 能 返回 被 修改 的 文档 总 数 。 

对 于 更 为 复杂 的 查询 , 可 以 查看 官方 文档 的 相关 页 面 , 其 地 址 为 http://www.mongodb.org/ 
display/DOCS/Advanced+Queries 。 

第 33—38 4T 

delete) 71:8 HF] f 4l. update() 方 法 一 样 的 查询 。 当 我 们 得 到 所 有 匹配 查询 的 用 户 后 ， 就 

会 一 次 性 对 其 执行 remove() 操 作 进 行 删除 (第 36—37 行 )， 然 后 返回 结果 。 如 果 你 不 关心 被 

删除 的 文档 数量 ， 可 以 调用 更 简单 的 self.user.remove0) 删 除 集合 中 的 所 有 文档 。 
& 40—44 47 

因为 dbDump0 方 法 执行 的 查询 是 没有 条 件 的 (第 42 110, 所 以 会 返回 集合 中 的 所 有 用 户 ， 

然后 对 数据 进行 字符 串 格 式 化 并 向 用 户 显示 《第 43 一 44 13. 。 
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最 后 这 个 方法 在 应 
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main() Pl BUC ris SC AY BY nT 8 
数据 库 服 务 器 并 进行 准备 工作 



































644 总 结 


RE 
ee 





我 们 希望 已 经 为 你 提供 了 在 Python 中 使 用 关系 数据 库 的 一 个 不 错 的 介绍 。 当 你 的 应 
F 《比如 DBM, pickled 等 ) 的 功能 时 ， 你 还 可 以 有 很 多 选择 。 

















这 里 面包 括 很 多 的 RDBMS， 


可 以 把 你 从 安装 、 维 护 和 管理 


在 社区 上 








执行 关闭 MongoDB 月 




















尽管 本 节 给 出 了 Python ! 
分 所 述 ， 还 有 很 多 种 NoSQL 数据 库 可 以 供 你 选择 ， 你 需要 仔 
至 可 能 为 其 编写 原型 ， 才 能 找到 更 适合 你 任务 的 那 种 数据 库 。 
供 读者 深入 阅读 。 


出 纯 文本 文件 或 特定 文 伯 








还 有 上 








非 关 系数 据 库 的 使 

















R 务 器 的 连接 时 会 定义 和 调用 。 




















解 ， 并 且 随 后 的 脚本 和 本 章 之 前 看 到 的 应 用 基本 相同 : 连接 














E TSE CR”) 中 插入 用 户 并 转 
个 项 目 转移 到 另 一 个 项 目 〈 并 转 储 内 容 )， 删 除 一 个 完整 的 项 目 组 〈 并 转 储 内 容 )， 删 除 整个 




















1 方法 ， 但 是 











冉 数 据 库 内 容 ， 将 用 户 从 一 

















只 是 开始 。 正 如 本 节 开 始 则 





























f 
下 



































究 每 种 NoSQL 数据 库 ， 甚 








一 市 会 给 出 更 多 的 参考 文献 



































没有 提 及 的 一 个 完全 使 用 Python 实现 的 数据 库 系 统 ， 









































在 ] 


下 一 区 
































数据 规模 的 情况 。 


他 软件 3 


我 们 还 建议 你 查阅 DB-SIG 页 面 ， 以 及 因 
于 发 领域 相似 ，Python 易于 学 习 并 且 实 践 简单 。 








6.5 ”相关 文献 


还 增强 了 非 关系 数据 库 的 相关 信息 ，| 


EE 真实 数据 库 系 统 ! 
， 你 会 看 到 很 多 数据 库 的 Python 适配器 ， 然 后 是 一 些 ORM 系统 。 此 外 ， 现 
j 于 应 对 那些 关系 数据 库 无 法 处 理应 用 需要 的 








解放 出 来 。 




















































































































特 网 上 所 有 相关 系统 的 网 页 和 邮件 列表 。 与 其 





























表 6-8 列 出 了 大 多 数 可 用 的 数据 库 及 其 Python 适配器 的 模块 和 包 。 需 要 注意 的 是 ， 并 不 
是 所 有 适配器 都 是 兼容 DB-API 的 。 
表 6-8 数据 库 相 关 模 块 / 包 及 其 网 站 
名 称 在 线 参 考 文献 
关系 数据 库 
Gadfly gadfly.sfnet 
MySQL mysql.com or mysql.org 





MySQLdb, HJ MySQL-python 


sf.net/projects/mysql-python 





MySQL Connector/Python 





launchpad.net/myconnpy 
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( 续 表 ) 
名 B 在 线 参 考 文献 
关系 数据 库 
PostgreSQL postgresql.org 
psycopg initd.org/psycopg 
PyPgSQL pypgsql.sf.net 
PyGreSQL pygresql.org 
SQLite sqlite.org 
pysqlite trac.edgewall.org/wiki/PySqlite 
sqlite3” docs.python.org/library/sqlite3 
APSW code.google.com/p/apsw 
MaxDB (SAP) maxdb.sap.com 
sdb.dbapi maxdb.sap.com/doc/7_7/46/7028 11f2042d87e10000000a1553f6/content.htm 
sdb.sql maxdb.sap.com/doc/7_7/46/7 1b2a8 16ae0284e10000000a1553f6/content.htm 
sapdb sapdb.org/sapdbPython.html 
Firebird (InterBase) firebirdsql.org 
KInterbasDB firebirdsql.org/en/python-driver 
SQL Server microsoft.com/sql 
pymssql code.google.com/p/pymssql 需要 FreeTDS[freetds.org]) 
adodbapi adodbapi.sf.net 
Sybase sybase.com 
sybase www.object-craft.com.au/projects/sybase 
Oracle oracle.com 
cx Oracle cx-oracle.sf.net 
DCOracle2 zope.org/Members/matt/dco2 〈 已 过 时 ， 仅 支持 Oracle8) 
Ingres ingres.com 
Ingres DBI community.actian.com/wiki/Ingres Python Development Center 
ingmod www.informatik.uni-rostock.de/~hme/software/ 
NoSQL 文档 数据 存储 
MongoDB mongodb.org 
PyMongo pypi.python.org/pypi/pymong 
文档 : api.mongodb.org/python/current 
PyMongo3 pypi.python.org/pypi/pymongo3 
Other adapters Other adapters api.mongodb.org/python/current/tools.html 
CouchDB couchdb.apache.org 





couchdb-python 


code.google.com/p/couchdb-python 
文档 : packages.python.org/CouchDB 



































ORM 
SQLObject sqlobject.org 
SQLObject2 sqlobject.org/2 
SQLAIchemy sqlalchemy.org 
Storm storm.canonical.com 
PyDO/PyDO2 skunkweb.sf.net/pydo.html 
(D É Python 2.5 #2, pysqlite 作为 sqlite3 模块 添加 进 标准 库 中 。 
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除了 数据 库 相 关 的 模块 / 包 外 ， 下 























7 




















Python 和 数据 库 


wiki.python.org/moin/DatabaseProgramming 


wiki.python.org/moin/DatabaselInterfaces 


数据 库 格 式 、 结 构 及 开发 模式 


en.wikipedia.org/wiki/DSN 
www.martinfowler.com/eaaCatalog/dataMapper.html 
en.wikipedia.org/wiki/Active record pattern 
blog.mongodb.org/post/114440717/bson 


非 关 系数 据 库 


en.wikipedia.org/wiki/Nosql 


nosgl-database.org/ 





还 有 一 些 网 上 的 参考 文献 可 供 学 习 。 


www.mongodb.org/display/DOCS/MongoDB,+CouchDB,+MySQL+Compare+Grid 








































































































































































































































































































6.6 练习 

数据 库 

6-1 数据 库 API。 什么 是 Python If] DB-API? 它 是 一 个 好 东西 吗 ? 为 什么 是 (或 为 什么 
不 是 ) ? 

6-2. 数据库 API。 描 述 不 同 的 数据 库 模 块 参数 风格 的 区 别 〈 参 考 paramstyle 模块 属性 )。 

6-3 ”游标 对 象 。 游 标的 execute*() 方 法 之 间 有 哪些 区 别 ? 

6-4 游标 对 象 。 游 标的 fetch*0) 方 法 之 间 有 哪些 区 别 ? 

6-5 ”数据 库 适 配器 。 研究 你 的 RDBMS 及 其 Python 模块 。 它 是 否 兼容 DB-API? 它 提供 
了 可 用 于 Python 模块 但 DB-API 中 没有 的 哪些 额外 功能 ? 

6-6 ”类 型 对 象 。 学 习 使 用 针对 你 的 数据 库 及 其 DB-API 适配器 的 Type 对 象 ， 并 编写 一 
个 小 脚本 ， 它 至 少 使 用 一 种 类 型 对 象 。 

6-7 €7#).7£ ushuffle_dbU.create() PA AF, 已 存在 的 表 会 被 删除 , 然后 再 递归 调用 create 
重新 创建 。 这 样 做 其 实 非常 危险 ， 因 为 一 旦 创建 表 (再 次 ) 失败 ， 就 会 陷入 到 无 限 
递归 当中 。 请 创建 一 个 更 实用 的 解决 方案 来 修正 该 问题 , 而 不 再 是 在 异常 处 理 程序 
中 简单 地 再 次 复制 创建 查询 (cur.execute0O )。 选 做 题 : 在 向 调用 者 返回 失败 前 ， 最 
多 重新 创建 表 3 次 。 

6-8 数据 库 和 HTML。 使 用 你 的 Web 编程 知识 创建 一 个 输出 内 容 的 处 理 程序 ， 将 已 存 
在 的 数据 库 表 中 的 内 容 作 为 HTML 在 浏览 器 中 显示 出 来 。 

6-9 Web 编程 和 数据 库 。 为 用 户 洗 牌 示例 Cushuffle db.py) 创建 一 个 Web 接口 。 








第 6 章 数据 库 编程 253 





























1 











6-10 GUI 编程 和 数据 库 。 为 用 户 洗 牌 示例 Cushuffle_db.py) 创建 一 个 GUI 应 用 。 

6-11 股票 投资 组 合 类 。 创 建 一 个 应 用 ， 它 可 以 是 多 用 户 管理 股票 投资 组 合 。 使 用 关系 
数据 库 作 为 后 端 , 并 提供 一 个 基于 Web 的 用 户 接口 。 可 以 使 用 Core Python Language 
Fundamentals 或 Core Python Programming 中 关于 面向 对 象 一 章 中 的 股票 数据 库 类 。 

6-12 ”调试 与 重 构 。update() 和 remove0 函 数 各 有 一 个 小 的 缺陷 : update0 可 能 将 用 户 从 某 
个 项 目 组 移动 到 同一 个 项 目 组 。 修 改 随机 产生 的 项 目 组 使 其 与 用 户 本 身 的 项 目 组 不 
能 相同 。 相 似 地 ，removeO 可 能 会 党 试 从 没有 员工 的 项 目 组 中 进行 移 除 操作 《比如 
项 目 组 不 存在 或 者 已 经 使 用 update0 移 出 员工 )。 


ORM 


633 ”股票 投资 组 合 类 。 使 用 ORM 代替 直接 访问 RDBMS, 为 股票 投资 组 合 (练习 6-11) 
Qu e 

6-14 ”调试 与 重 构 。 将 练习 6-13 的 解决 方案 移植 到 SOLAlchemy 和 SQLObject 示例 中 。 

615 支持 不 同 的 RDBMS 。 对 SQLAlchemy Cushuffle sad.py ) 或 SQLObject 
Cushuffle_so.py) 应 用 进行 修改 ， 使 其 除了 目前 已 经 支持 的 MySQL 和 SQLite 外 ， 

再 增加 对 你 选择 的 其 他 关系 数据 库 的 支持 。 




































































































































































































































































下 述 四 个 练习 将 专注 于 ushuffle_dbU.py 脚本 , 其 靠近 顶部 的 一 些 代码 (第 7 一 12 行 ) 
决定 了 哪个 函数 会 用 于 获取 用 户 的 命令 行 输入 。 
6-16 导入 和 了 Python。 请 重新 阅读 代码 。 为 什么 我 们 需要 检查 _builtins_ 是 dict 还 是 模块 呢 ? 
6-17 移植 到 Python 3。 使 用 distutils.log.warn0 并 不 是 printVyprintO 的 完美 代替 品 。 请 证 明 

这 一 点 ， 并 提供 代码 片段 用 于 展示 warn() 并 不 兼容 print()。 
6-18 ”移植 到 Python 3。 一 些 开 发 者 认为 他 们 可 以 像 在 Python 3 中 那样 在 Python 2 中 使 
] print()。 请 证 明 这 种 想法 是 错误 的 。 提 示 : 来 自 Guido 自己 的 证 明 : print(x, y). 
6-19 Python 语言 。 假 设 你 希望 在 Python 3 中 使 用 printD， 而 在 Python 2 中 使 用 

distutils.log.warn()， 并 且 仍 希望 使 用 printfO 这 个 函数 名 。 下 面 的 代码 有 什么 错误 ? 






































































































































































































































from distutils.log import warn 

if hasattr(__builtins__, 'print'): 
printf = print 

else: 


printf = warn 
620 “异常 。 当 我 们 在 ushuffle_sad.py 中 人 
出 现 错误 (exc.OperationalError)， 指 出 我 们 指定 的 表 并 不 存在 ， 所 以 我 们 又 回 过 
先 创 建 数据 库 ， 再 重新 尝试 数据 库 连 接 。 然 而 ， 并 不 只 有 这 一 种 错误 源 : 如 果 使 
] MySQL 并 且 服 务 器 本 身 没 有 正常 工作 ， 也 会 抛 出 相同 的 异常 。 在 这 种 情况 下 ， 





ni 
oT 








用 指定 的 数据 库 名 建立 到 服务 器 的 连接 时 ， 
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CREATE DATABASE 也 无 法 执行 。 请 添加 一 个 处 理 程序 来 应 对 这 种 情况 ， 并 为 党 
试 创 建 实 例 的 代码 抛 出 RuntimeError 异常 。 

6-21 SQLAIchemy. 378 ushuffle_sad.dbDumpO 函 数 的 功能 ， 为 其 添加 一 个 新 的 默认 参 
Zi, newest5， 并 将 其 默认 值 设 为 False。 当 传 入 True 时 ， 不 再 显示 所 有 用 户 ， 而 是 
逆序 排列 Users.userid， 只 显示 最 新 雇用 的 5 名 员工 。 将 该 调用 放置 在 main() 函 数 
的 orm.insert0 和 orm.dbDumpO 调 用 之 后 。 

a) 使 用 Query limit0 和 offsetO 方 法 。 

b) 使 用 Python 的 切片 语法 。 

修改 后 的 输出 如 下 所 示 。 
Jess 7912 4 
Aaron 8312 3 
Melissa 8602 2 
*** Top 5 newest employees 
LOGIN USERID  PROJID 
Melissa 8602 2 
Aaron 8312 3 
Jess 7912 4 
Elliot 7911 3 
Davina 7902 3 
*** Move users to a random group 

(4 users moved) from (3) to (1) 

LOGIN USERID PROJID 
Faye 6812 4 
Serena 7003 2 
Amy 7209 1 

6-22 SQLAlchemy。 修 改 ushuffle_sad.update0 方 法 ， 疝 下 5 行 代 码 ， 改 为 使 用 Query 


6-23 


6-24 


















































update() 7 1 o TE 




















] timeit 模块 测试 是 否 比 直接 使 用 更 加 快速 。 




















SQLAlchemy. 与 练习 6-22 相同 ， 不 过 这 次 使 用 Query delete0 方 法 修改 


ushuffle sad.delete(). 

SQLAlchemy. fF ushuffle sad.py É 
明 层 和 会 话 。 尽 管 使 
一 个 坏 主意 。 修 改 ushuffle sae.py 
如 声明 层 版 本 ushuffle sad.py 中 那样 


























用 Active Record 是 可 选 的 












































使 用 /共享 Session 对 象 





的 显 式 非 声明 版 本 ushuffle sae.py : 
， 但 是 使 用 Session 这 个 概念 并 不 
执行 数据 库 操 作 的 所 有 代码 ， 以 便 它 们 者 
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6-25 Django 数据 模型 。 使 用 Django ORM 创建 等 效 于 SQLAlchemy 或 SQLObject 示例 
中 实现 的 Users 数据 模型 类 。 你 可 能 需要 提前 阅读 第 11 章 的 内 容 。 
6-26 Storm ORM。 将 ushuffle s*.py 应 用 移植 到 Storm ORM 上 。 


非 关 系 (NoSQL ) 数据 库 


6-27 NoSQL. 非 关 系数 据 库 变 得 越 来 越 流行 有 哪些 原因 ? NoSQL 比 传 统 的 关系 数据 库 
多 提供 了 哪些 功能 ? 

6-28 NoSQL。 非 关系 数据 库 至 少 有 4 种 不 同类 型 。 对 各 主要 类 型 进行 分 类 ， 并 给 出 每 
个 类 别 中 最 出 名 的 几 个 项 目的 名 称 。 请 注意 那些 包含 多 个 Python 适配器 的 数据 库 。 

6-29 CouchDB. CouchDB 是 另 一 个 经 常 与 MongoDB 相 比 较 的 文档 数据 存储 。 查 看 本 
章 最 后 一 节 中 提 及 的 网 站 中 的 一 些 在 线 对 比 ， 然 后 下 载 并 安装 CouchDB 。 将 
ushuffle mongo.py 修改 为 兼容 CouchDB 的 ushuffle_couch.py. 
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第 7 章 *Microsoft Office 编程 


无 论 你 做 什么 ， 总 会 有 一 个 限制 因素 决定 你 完成 它 的 速度 和 程度 。 你 的 工作 就 是 对 任务 
进行 研究 ， 找 出 那个 限制 因素 。 然 后 集中 你 所 有 的 力量 ， 消 除 这 个 瓶颈 。 
——Brain Tracy, 2001 年 3 月 
( Eat That Frog, 2001 4F, Berrett-Koehler ) 


























本 章 内 容 : 

。 简介 ; 

e 使 用 Python 进行 COM 客户 端 编程 ; 
。 入 门 示例 ; 

。 中 级 示例 ; 

















。 相关 模块 / 包 。 


EB: 本 章 中 的 示例 都 需要 使 用 Windows 操作 系统 ， 使 用 Mac 系统 的 苹果 电脑 无 法 运行 
本 章 的 Microsoft Office 示例 。 
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本 章 将 与 本 书 的 大 部 分 章节 有 所 区 别 ， 不 
应 用 ， 而 是 使 用 Python 做 一 些 完全 不 同 的 
制 专 有 软件 ， 具 体 来 说 就 是 Microsoft Office 应 用 。 



























































71.1 简介 




































































Ill 


事情 : 通过 组 

















关注 网 络 开 发 、GUI、Web 或 基于 命令 行 的 








EXT RARELY (COM) 客户 端 编程 控 























无 论 开 发 者 是 否 喜 欢 ， 都 无 法 否认 他 们 生活 在 一 个 需要 与 基于 Windows 的 PC 进行 交互 
的 世界 里 。 它 可 能 只 是 间 欣 性 出 现 的 ， 也 可 能 是 你 每 天 都 必须 处 理 的 事情 ， 不 过 无 论 你 所 本 
































对 的 出 现 频率 如 何 ，Python 总 能 够 使 我 们 的 生活 变 得 更 简单 。 
在 本 章 中 ,我 们 将 学 习 通 过 使 用 Python 进行 COM 客户 端 编程 , 从 而 能 够 控制 诸如 Word、 








Excel、PowerPoint 和 Outlook 等 Microsoft Office 应 月 








， 并 能 够 与 之 进行 通信 。COM 是 一 个 




















服务 , 通过 该 服务 可 以 使 PC 应 用 与 其 他 应 用 进行 交互 。 



































LATUS. Office 套件 中 那些 知名 的 























应 用 提供 了 COM 服务， 而 COM 客户 端 编程 可 以 









































] 来 驱动 这 些 应 用 。 











传统 意义 上 ，COM 客户 端 一 般 使 用 两 种 非常 强大 但 又 非常 不 同 的 工具 来 编写 ， 分 别 是 
Microsoft Visual Basic ( VB) /Visual Basic for Application (VBA) 和 (Visual) C++。 对 于 COM 
编程 而 言 ，Python 一 般 被 视 为 一 种 可 行 的 替代 品 ， 因 为 它 比 VB 更 加 强大 ， 又 比 C++ 开发 有 









































着 更 好 的 表现 力 和 更 少 的 时 间 消 耗 。 
































有 一 些 更 新 的 工具 ， 如 IronPython、.NET、VSTO， 也 可 以 帮助 你 编写 与 Office 工具 通 






























































信 的 应 用 ， 不 过 如 果 你 去 研究 其 底层 ， 就 会 发 现 它们 同村 












































先进 的 工具 ， 本 章 中 的 内 容 依旧 可 以 适用 





本 章 既 可 以 使 COM 开发 者 学 会 如 何在 其 世界 中 应 用 




















是 COM， 所 以 即使 你 使 用 了 更 加 





o 




















Python， 也 可 以 让 Python 程序 员 学 








会 如 何 创 建 COM 客户 端 来 自动 执行 任务 ， 比 如 ， 生 成 Excel 表格 、 创 建 Word 文档 、 使 用 
PowerPoint 建立 约 灯 片 演示 以 及 通过 Outlook 发 送 邮 件 等 。 我 们 将 不 会 讨论 COM 的 原则 或 概 
念 ， 或 者 思考 “为 什么 是 COM”。 此 外 ， 我 们 也 不 会 学 习 有 关 COM+, ATL. IDL. MFC, 












































DCOM、ADO、.NET、IronPython、VSTO 等 工具 的 知识 。 
































取而代之 的 是 ,我们 将 会 让 你 专注 于 学 习 如 何 使 用 Python 与 Office 应 用 通信 , 进行 COM 








客户 端 编程 。 


7.2 使 用 Python 进行 COM 客户 端 编程 



























































在 日 常 的 业务 环境 中 ， 你 能 够 做 的 最 有 用 的 事情 之 
































就 是 整合 对 Windows 应 用 的 支持 。 


能 够 对 这 些 应 用 进行 数据 读 写 通常 是 非常 方便 的 。 虽 然 你 的 部 门 可 能 并 没有 运行 在 Windows 























"i 
环境 中 ,但 是 很 有 可 能 你 的 管理 者 或 者 其 











他 项 目 组 使 用 了 





















































Windows Xi. Mark Hammond 编 

















写 的 Windows Extnesions for Python 允许 程 
































序 员 在 原生 环境 中 与 Windows 应 用 进行 交互 。 








用 应 用 


AWA 
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i 程 的 领域 正在 不 
包 。 Windows API, JRA tf. 
访问 、 管 道 、 服 务 器 端 COM 编程 以 及 事件 。 
个 重要 部 分 : COM 客户 端 编程 。 


7.2.1 Rin COM 编程 














4 














Windows 2 
它 包 括 : 







































































我 们 可 以 使 用 COM (其 商业 名 称 为 ActiveX) 与 诸如 Outlook. Excel 等 工具 i 
] 的 Python 代码 来 “控制 ”原生 的 














信 。 对 于 开发 者 而 言 ， 
Office 应 用 
具体 来 说 ， 比如 ， 


和 数据 ， 这 称 为 COM 客户 端 编程 ; 
对 象 的 实现 。 



































而 COM 


断 扩 大 ， 其 中 大 多 数 都 来 自 于 


F Windows Extensions for Python 
MFC GUI TRS Windows 多 线程 编程 、 服 务 、 远 程 
本 章 后 续 


其 乐趣 在 于 能 够 直接 通过 他 人 


在 讨论 COM 对 象 的 使 用 时 ， 








部 分 会 重 














点 讨论 Windows 领域 中 的 一 























行 通 


























局 动 应 用 





允许 代码 访问 应 用 的 方法 


S 








服务 


核心 提示 : Python 和 Microsoft COM (客户 端 ) 编程 


Python 在 Windows 32 位 平台 上 包含 了 对 COM 的 连通 性 ，Microsoft 的 接口 技术 允许 
对 象 与 其 他 对 象 进行 通信 ， 从 而 促进 更 高 级 别 的 应 用 与 其 他 应 用 之 间 的 通信 ， 而 不 需要 任 


何 对 语言 


器 端 编程 则 是 























j 于 客户 端 访问 的 COM 








或 格式 的 依赖 。 在 本 节 中 我 们 会 看 到 Python 和 COM (UP 382842 ). 是 如 何 结合 


起 来 ， 提 供 独特 的 时 机 用 于 创建 能 够 直接 与 Microsoft Office 应 用 (如 Word. Excel. 


PowerPoint 和 Outlook ) 进行 通信 的 脚本 的 。 


7.2.2 AT] 



































本 节 的 前 提 条 件 包括 : 使 用 一 台 运 行 32 
的 其 他 系统 ); 必须 安装 有 .NET 2.0 CP) 
以 从 http://pywin32.sf.net 获取 i 
的 示例 。 你 可 以 在 命令 行 上 
进行 开发 。 

































































我 必须 承认 自己 并 不 是 COM 方面 的 专家 ， 
的 能 力 来 向 你 展示 如 何 使 用 Python 控 
所 以 恳请 读者 给 我 们 写 信 ， 以 
本 章 后 面 几 节 是 由 一 些 示例 应 用 组 成 的 ， 
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制 Office 应 用 。 
普通 读者 的 角度 ， 提 





的 Microsoft 应 用 用 


ALEK 64 位 Windows 系统 的 PC 〈 或 包含 虚拟 机 
. Python 以 及 Python Extensions for Windows (可 
ZO: 必须 有 至少 一 个 可 用 
进行 开发 ， 也 可 以 使 用 Extensions 分 发 版 本 上 


























尝试 下 面 
的 PythonWin IDE 

















也 不 是 Microsoft 软件 开发 者 ， 不 过 我 有 足够 
































的 例子 还 有 很 大 的 改进 空间 。 








Ap 
出 意见 、 


这 些 例 子 可 以 i 






































编程 有 个 初步 认识 ; 然后 ， 会 有 几 个 中 等 难 



























































客户 端 COM 应 用 在 执行 
步 又 。 














都 遵循 相似 的 步 又。 


度 的 示例 o 


建 i 


在 给 出 这 些 例子 之 前 ， 





让 你 对 每 种 主要 的 Office 应 
需要 指出 


Tin 女 












































这 些 应 用 进行 


交互 的 典型 方式 类 似 下 面 的 
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启动 应 用 。 
添加 合适 的 文档 以 工作 (或 载 入 一 个 已 经 存在 的 文档 )。 
使 应 用 可 见 〈 根 据 需 要 )。 
执行 文档 所 需 的 所 有 工作 。 
保存 或 放弃 文档 。 

讨论 就 到 这 里 ， 现 在 让 我 们 看 一 些 代 码 。 接 下 来 的 一 节 会 包含 很 多 脚本 ， 其 中 的 每 个 脚 
本 都 会 控制 一 种 不 同 的 Microsoft 应 用 。 所 有 脚本 都 会 导入 win32com.client 模块 以 及 一 些 Tk 
模块 来 控制 应 用 的 启动 (和 完成 )。 此 外 ， 和 第 5 章 一 样 ， 我 们 使 用 了 .pyw 扩展 名 ， 从 而 让 
不 需要 的 DOS 命令 行 窗口 不 再 显示 。 


7.3 ”入门 示例 


本 节 将 给 出 几 个 基础 示例 , 使 你 在 4 个 主流 的 Office 应 用 开发 
应 用 分 别 是 : Excel. Word. PowerPoint 和 Outlook. 


7.3.1 Excel 


我 们 在 第 一 个 例子 中 使 用 的 是 Excel。 在 所 有 Office 套件 中 , 我 们 发 现 Excel 是 可 编程 化 
最 好 的 应 用 。 向 Excel 中 传输 数据 非常 有 用 ， 因 为 你 既 可 以 利用 表格 的 功能 ， 又 能 够 以 一 种 
很 好 的 可 打印 格式 显示 数据 。 此 外 ， 从 电子 表格 中 读 取 数 据 并 通过 真实 编程 语言 (如 Python) 
的 功能 来 执行 ， 也 是 非常 有 用 的 。 本 节 最 后 还 会 给 出 一 个 更 复杂 的 例子 ， 不 过 我 们 必须 先 要 
入 门 才 可 以 ， 所 以 先 从 示例 7-1 开始 。 











ON Un RU F2 一 





































































































能 够 入 门 , 这 4 个 Office 












































































































































示例 7-1 Excel 示 例 Cexcel.pyw) 
本 脚本 会 启动 Excel 并 向 电子 表格 的 单元 格 中 写 入 数据 。 
1 #!/usr/bin/env python 


























2 

3 from Tkinter import Tk 

4 from time import sleep 

5 from tkMessageBox import showwarning 
6 | import win32com.client as win32 


7 
8 warn = lambda app: showwarning(app, 'Exit?') 
9 RANGE = range(3, 8) 


10 

l1 def excelQ: 

12 app = 'Excel' 

13 xl = win32.gencache.EnsureDispatch('%s.Application' % app) 
14 ss = xl.Workbooks.Add() 

15 sh = ss.ActiveSheet 

16 xl.Visible = True 
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17 sleep(1) 
18 
19 sh.Cells(1,1).Value = 'Python-to-%s Demo' % app 
20 sleep(1) 
21 for i in RANGE: 
22 sh.Cells(i,1).Value = 'Line %d' % i 
23 sleep(1) 
24 sh.Cells(i«2,1).Value = "Th-th-th-that's all folks!" 
25 
26 warn(app) 
27 ss.Close(False) 
28 xl.Application.Quit() 
29 
30 if name --' main ' 
31 TkO .withdraw() 
32 excel() 
逐 行 解释 


第 1 一 6 行 、 第 31 行 

我 们 导入 了 Tkinter 和 tkMessageBox 模块 ， 仅 用 于 在 演示 结束 后 使 用 showwarning 消息 
框 。 在 对 话 框 出 现 ( 第 26 行 ) 之 前 ， 我 们 使 用 了 withdraw0 方 法 不 让 Tk 顶级 窗口 出 现 (第 
31 行 )。 如 果 没 有 事先 初始 化 顶级 窗口 ， 那 么 Tk 会 为 你 自动 创建 一 个 ， 而 且 不 会 将 其 隐藏 ， 
这 样 会 在 你 的 屏幕 上 造成 一 定 的 干扰 。 

第 11~17 行 

当代 码 启动 (或 者 “调度 ”) Excel 后 ， 我 们 添加 了 一 个 工作 簿 (一 个 包含 了 多 个 可 写 入 
数据 的 工作 表 的 电子 表格 , 这 些 工作 表 在 工作 敌 中 以 标签 的 形式 进行 组 织 ), 然后 取得 了 活动 
工作 表 【 显 示 的 那个 工作 表 ) 的 句柄 。 不 要 过 分 纠结 于 这 些 术语 ， 因 为 “电子 表格 包含 多 个 
工作 表 ” 这 种 话 很 容易 使 人 困惑 。 























































































































核心 提示 : 静态 和 动态 调度 

第 13 行使 用 了 静态 调度 。 在 开始 脚本 之 前 ， 我 们 在 PythonWin 中 运行 了 Makepy 
工具 (启动 IDE, 选择 Tools ^ COM Makepy utility， 然 后 选择 适合 的 应 用 对 象 库 )。 该 
工具 会 创建 应 用 所 需 的 对 象 并 进行 缓存 。 如 果 没 有 这 个 准备 工作 ， 对 象 和 属性 则 需要 
在 运行 时 构建 ， 那 样 就 是 动态 调度 了 。 如 果 你 希望 动态 运行 ， 那 么 可 以 使 用 Dispatch() 


Es 


o 


xl = win32com.client.Dispatch('$s.Application' % app) 


























Visible 标记 必须 设 为 True， 这 样 应 用 才能 够 在 桌面 上 可 见 ; 而 暂停 可 以 让 你 看 清 演示 中 
的 每 一 步 〈 第 1615 。 
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在 该 脚本 中 的 应 用 前 





P, 





首先 在 第 
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个 单元 格 (左上 角 、A1l 或 者 (1, DO. 写 入 演示 的 标题 。 








然后 跳 过 一 行 ， 并 将 “Line N” 写 到 对 应 的 单元 格 中 (N 为 3~7 之 间 的 数字 )， 每 写 入 一 行 停 





顿 1 秒 ， 从 而 可 以 让 你 看 到 实时 更 新 (如 果 没 有 延 时 ， 单 元 格 的 更 新 将 会 发 生 
是 脚本 中 贯穿 了 对 sleep) K 


第 26 一 32 fT 


p 
A 





导 非 常 快 。 这 就 

















FE] 














的 原因 )。 
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* Window Help Adobe PDF 

















一 个 警告 对 话 相 





EAA 
Ea 


























你 可 以 在 观察 到 输 
闭 时 并 不 会 i 


























f Rd, 
ss.Close([SaveChanges- ]False) , 然后 应 
了 。 最 后 ， 脚 本 的 “main” 函 数 部 分 对 


演示 结束 后 出 现 ， 指 明 














始 化 ， 并 运行 应 





7-1 所 示 。 


7.3.2 Word 


下 一 个 演示 脚本 使 月 


档 ， 并 逐 行 号 入 文本 。 





的 核心 部 分 。 
运行 本 脚本 时 会 弹出 一 个 Excel 应 用 





的 是 Word。 使 用 Word 编写 文档 没有 那么 好 的 可 编程 
涉及 太 多 的 数据 。 不 过 ， 你 可 以 考虑 使 用 Word 生成 套 


- 















































出 结果 后 退出 。 电子 表格 在 关 14 [Python-totexcel Demo 
i 里 使 用 了 
就 会 退出 
Tk 进行 初 
窗口 , 如 图 
K| 7-1 
































图 Microsoft Excel - Book1 ile] xj 


Ed) Ee Edit vew Insert Format Tools Data 


ag x 


f Python-to-Excel Demo 















































信函 。 在 示例 7-2 : 











性 ， 因 为 不 会 
， 创 建 一 个 文 





Word 的 这 个 示例 和 Excel 的 那个 示例 非常 相似 。 唯 一 的 不 同 是 ，Excel 中 是 写 入 单元 格 ， 


而 在 Word 中 则 是 在 文档 的 文本 “ 
行 结束 符 : El 
当 运 行 脚本 时 ， 其 运行 结果 如 





这 里 必须 手动 给 出 





IR] 











q 











范 
车 换行 Ann). 
图 7-2 所 示 。 


f Ele Edit View Insert Format Toos Table 
: Window Help Adobe PDF Acrobat Comments 


Eg TANIERE 


Python-to-Word Test 











Line 3 
Line 4 
Line 5 
Line 6 
Line 7 


Th-th-th-that's all folks! 





7-2. Python-to-Word 演示 脚本 (word.pyw) 


围 ” 内 插入 字符 串 ， 并 在 每 行 写 入 后 将 光标 移 到 下 


行 。 
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示例 7-2 Word 示例 Cword.pyw) 


本 脚本 会 启动 Word， 并 在 文档 中 写 入 数据 。 
1 #!/usr/bin/env python 














3 from Tkinter import Tk 
4 from time import sleep 
5 from tkMessageBox import showwarning 
6 | import win32com.client as win32 
7 
8 


warn = lambda app: showwarning(app, 'Exit?') 
9 RANGE = range(3, 8) 





10 

ll def word(): 

12 app = 'Word' 

13 word = win32.gencache.EnsureDispatch('%s.Application' % app) 
14 doc = word.Documents.Add() 

15 word.Visible = True 

16 sleep(1) 

17 

18 rng = doc.Range(0,0) 

19 rng.InsertAfter('Python-to-%s Test\r\n\r\n' % app) 
20 sleep(1) 

21 for i in RANGE: 

22 rng.InsertAfter('Line %d\r\n' % i) 

23 sleep(1) 

24 rng.InsertAfter("\r\nTh-th-th-that's all folks!\r\n") 
25 

26 warn(app) 

27 doc.Close(False) 

28 word.Application.Quit() 

29 

30 if name --' main ' 

31 TkO .withdraw() 

32 word() 


7.3.3 PowerPoint 


在 应 用 中 使 用 PowerPoint 并 不 十 分 常见 ， 不 过 你 可 以 考虑 在 匆忙 赶 制 演示 文稿 时 使 用 这 
种 应 用 。 比 如 ， 你 可 以 在 飞机 上 先 将 要 点 写 入 文本 文件 中 ， 然 后 当晚 上 到 达 酒 店 后 ， 使 用 脚 
本 解析 文件 并 自动 生成 一 组 约 灯 片 。 更 进一步 ， 你 还 可 以 为 这 些 约 灯 片 添加 背景 、 动 画 等 ， 
所 有 一 切 都 可 以 通过 COM 接口 完成 。 男 一 个 用 例 是 在 你 必须 自动 生成 或 修改 新 的 或 已 存在 
的 演示 文稿 时 。 此 时 你 可 以 通过 shell 脚本 控制 创建 COM 脚本 ， 从 而 创建 和 调整 每 个 演示 文 
稿 。 下 面 让 我 们 看 一 下 示例 7-3 中 的 PowerPoint 示例 。 


示例 7-3 PowerPoint 示例 (ppoint.pyw) 


本 脚本 会 启动 PowerPoint， 并 在 幻灯 片 中 将 数据 写 入 文本 框 中 。 
| #!/usr/bin/env python 















































































































































2 

3 from Tkinter import Tk 

4 from time import sleep 

5 from tkMessageBox import showwarning 
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6 import win32com.client as win32 

7 

8 warn = lambda app: showwarning(app, 'Exit?') 

9 RANGE = range(3, 8) 

10 

l1 def ppointO: 

12 app = 'PowerPoint' 

13 ppoint = win32.gencache.EnsureDispatch('%s.Application' % app) 
14 pres = ppoint.Presentations.Add() 

15 ppoint.Visible = True 

16 

17 sl = pres.Slides.Add(1, win32.constants.ppLayoutText) 
18 sleep(1) 

19 sla = sl.Shapes[0].TextFrame.TextRange 

20 sla.Text = 'Python-to-%s Demo' % app 

21 sleep(1) 

22 slb = sl.Shapes[1].TextFrame.TextRange 

23 for i in RANGE: 

24 slb.InsertAfter("Line %d\r\n" % i) 

25 sleep(1) 

26 sib.InsertAfter("\r\nTh-th-th-that's all folks!") 
27 

28 warn(app) 

29 pres.Close() 

30 ppoint.Quit() 

31 

32 if name --' main ': 

33 TkO .withdraw() 

34 ppoint() 


你 看 到 的 这 个 代码 和 之 前 的 Excel 以 及 Word 演示 都 很 相似 。 而 PowerPoint 与 之 不 同 的 
地 方 是 写 入 数据 的 对 象 。 不 同 于 单个 活动 工作 表 或 文档 ，PowerPoint 的 情况 比较 麻烦 ， 因 
为 一 个 演示 文稿 中 会 包含 很 多 张 幻灯 片 ， 而 每 张 幻灯 片 都 可 能 有 不 同 的 布局 (PowerPoint 
的 最 新 版 本 中 包含 了 30 种 不 同 的 布局 !)。 在 一 张 幻灯 片 中 可 以 执行 的 操作 需要 依赖 于 你 所 





























选择 的 布局 。 
在 该 例子 中 ,使 用 了 标题 和 文本 布局 (第 17 行 ), He Re eae en et Foma Denk 
: SlideShow Window Help Adobe PDF x 


主 标题 〈 第 19—20 行 ) 填充 到 Shape[0] (BH Shaped) aye 
中 ， 而 把 文本 部 分 (第 22~26 行 ) 填充 到 Shape[1] CB 1 [ej] Python-to-PowerPoint Demo 















































Shape(2)) 中 。 需 要 注意 ， 这 里 Shape 的 写法 不 同 ， 是 因 ined 

为 Python 中 是 从 0 开始 索引 的 ， 而 在 Windows 软件 中 则 tee 

是 从 1 开始 索引 的 。 为 了 找 出 使 用 哪个 常量 ， 你 需要 有 所 T--— 

有 可 用 常量 的 一 个 列表 。 比 如 ，ppLayoutText 的 常量 值 为 

2 (E75, mj ppLayoutTitle 则 是 1。 你 可 以 在 大 多 数 Giat akino, —H 
Microsoft VB/Office 编程 书籍 中 找到 这 些 常量 ， 也 可 以 在 maru- E g 
网 上 通过 搜索 它们 的 名 字 进 行 查找 。 此 外 ， 你 可 以 直接 使 











用 整 型 常 量 ， 而 不 必 通 过 win32.constants 命 命名 它 们 图 7-3 Python-to-PowerPoint 演示 脚本 


PowerPoint 示例 的 屏幕 截图 如 图 7-3 所 示 。 (ppoint.pyw) 
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7.3.4 








Outlook 





最 后 ， 我 们 给 出 Outlook 演示 ， 在 Outlook 中 会 使 用 比 PowerPoint 更 多 的 常量 。 作 为 一 
个 非常 常见 和 通用 的 工具 ，Onutlook 的 使 用 像 Excel 一 样 在 应 用 中 非常 有 
序 中 ， 可 以 轻松 处 理 邮件 地 址 、 邮 件 消息 及 其 他 数据 。 示 例 7-4 是 一 个 Outlook 示例 ， 它 比 
之 前 的 几 个 例子 功能 更 多 一 些 。 


E 





在 本 示例 中 ， 我 们 使 月 


























示例 7-4 Outlook 示例 (olook.pyw) 
本 脚本 会 启动 out1ook， 创 建 一 封 新 邮件 然后 将 其 发 送 ， 并 且 可 以 让 你 通过 outbox f 








#!/usr/bin/env 








python 





意义 。 在 Python f£ 























0 邮件 本 身 打 开 进 行 查看 。 





l 

2 

3 from Tkinter import Tk 

4 from tkMessageBox import showwarning 

5 import win32com.client as win32 

6 

7 warn = lambda app: showwarning(app, 'Exit?') 

8 RANGE = range(3, 8) 

9 

10 def outlook(): 

11 app = 'Outlook' 

12 olook = win32.gencache.EnsureDispatch('%s.Application' % app) 
13 

14 mail = olook.CreateItem(win32.constants.olMailItem) 
15 recip = mail.Recipients.Add('you0127.0.0.1') 

16 subj = mail.Subject = 'Python-to-%s Demo' % app 
17 body = ["Line Xd" % i for i in RANGE] 

18 body.insert(0, '%s\r\n' % subj) 

19 body. append("\r\nTh-th-th-that's all folks!") 
20 mail.Body = '\r\n'.join(body) 

21 mail.SendQ 

22 

23 ns = olook.GetNamespace("MAPI") 

24 obox = ns.GetDefaultFolder(win32.constants.olFolderOutbox) 
25 obox.Display() 

26 obox.Items.Item(1) .Display() 

27 

28 warn(app) 

29 olook.Quit(O 

30 

31 if name ==" main ': 

32 TkO .withdraw() 


33 outlook() 





HJ Outlook 向 我 们 自己 发 送 一 封 邮 伯 





ÍT, 你 需要 关闭 网 络 连接 ， 从 而 使 邮件 消息 不 会 真正 发 送出 去 ,而 可 以 在 


中 看 到 它 ( 如 果 你 愿意 ， 可 以 在 查阅 后 删除 该 邮 作 


新 的 邮 伯 























VH T s 


F， 并 填充 了 几 个 字段 ， 
end() 方 法 (第 22 47), 











比如 接收 人 、 主 题 、 邮 件 正文 内 容 等 CH 
使 邮件 假 脱 机 进入 Outbox, 一 旦 邮件 被 传 














F。 为 了 使 该 演示 可 以 正常 运 








你 的 Outbox 文件 夹 


F)。 在 启动 Outlook 之 后 ， 我 们 创建 了 一 封 
815—21 行 )。 然 后 





递 到 邮件 服务 器 中 ， 
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该 邮件 就 会 从 Outbox 文件 夹 移 出 ， 进 入 “已 发 送 邮 件 ” 文 件 夹 ! 
和 PowerPoint 一 样 ， 这 里 也 有 很 多 可 用 的 常量 ，olMailltem (其 党 量 值 为 0) 是 用 于 邮件 
消息 的 一 个 常量 。Outlook 中 其 他 常用 的 项 目 还 包括 : olAppointmentltem (1), olContactItem 
(2) 以 及 olTaskItem (3)。 当 然 ， 还 有 更 多 的 常量 可 用 ， 你 可 以 查阅 VB/Office 编程 书籍 或 者 

















































































































































































































在 网 上 搜索 常量 及 其 值 ， 以 获取 更 多 信息 。 
下 一 部 分 (第 24 一 27 行 ) 使 用 了 另 一 个 常量 : ; Ele Edt View Insert Format Tools Table 
; Window Help Adobe obat Comments X 
olFolderOutbox (4)， 用 于 打开 Outbox 文件 夹 并 € — 之 — 
进行 显示 。 我 们 会 找到 最 新 创建 的 几 封 邮件 ( 希 Python-to-Word Test 
望 包含 我 们 刚刚 创建 的 那 封 ) 进行 显示 。 另 一 些 
1 
常用 的 文件 夹 包 括 : olFolderinbox (6). Line 4 
olFolderCalendar (9). olFolderContacts (10), : 
olFolderDrafts (16). olFolderSentMail (5) 以 及 Line 7 
olFolderTasks “13)。 如 果 你 使 用 的 是 动态 调度 ， Th-th-th-that's all folks! a 
你 可 能 必须 使 用 数值 而 不 是 常量 名 (参见 前 面 的 _ 2 
ne sasaa Hn 
核心 提示 )。 Pagel Secl yi ar in Z 
图 7-4 所 示 为 邮件 窗口 的 截屏 














在 我 们 更 进一步 之 前 ， 需 要 知道 Outlook 总 图 7-4 Python-to-Outlook 演示 脚本 (olook.pyw) 


是 遭受 各 种 各 样 的 攻击 , 所 以 Microsoft 内 置 了 很 多 防护 措施 , 来 限制 访问 地 址 短 以 及 代表 你 
发 送 邮件 的 能 力 。 当 党 试 访问 Outlook 数据 时 ， 屏 幕 上 会 显示 类 似 图 7-5 所 示 的 弹 窗 ， 在 这 
里 你 必须 显 式 地 给 外 部 程序 赋予 权限 。 

接 下 来 ， 当 你 尝试 从 一 个 外 部 程序 发 送 邮 件 时 ， 会 出 现 图 7-6 所 示 的 警告 对 话 框 ， 你 必 
须 等 到 时 间 条 耗 尽 才能 选择 Yes 按钮 。 

































































' A program is trying to access e-mail addresses you have A program is trying to automatically send e-mail on your 
QN stored in Outlook. Do you want to allow this? V\\ penal 


Do you want to allow this? 
If this is unexpected, it may be a virus and you should 
choose "No". 


If this is unexpected, it may be a virus and you should 
choose "No". 


F alow access for [UREA -] 
—w jL€ ] - | 





Kj 7-5 Outlook 3th f; jo] 26 图 7-6 Outlook 邮件 发 送 警 告 























当 你 通过 所 有 安全 检查 后 ， 其 他 一 切 事情 都 会 很 顺利 地 运行 。 有 一 些 软 件 可 以 帮助 你 绕 

这 些 检查 ， 不 过 它们 需要 单独 下 载 和 安装 。 

在 本 书 的 配套 网 站 http://corepython.com 中 ， 你 可 以 找到 一 个 应 用 脚本 , 它 把 这 4 个 小 示 
例 都 组 合 到 了 一 起 ， 在 该 脚本 中 会 允许 用 户 自 己 选择 运行 哪个 示例 。 
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7.4 中 级 示例 





到 月 


品 进行 入 门 的 。 现 在 让 我 们 看 几 个 在 真实 世界 中 有 用 的 应 月 









































作 中 进行 了 使 用 。 


7.4.1 


在 本 例 中 ， 我 们 将 把 本 章 所 讲 的 内 容 与 第 13 章 的 内 容 结合 起 来 。 在 第 13 章 中 ， 示 例 13-1 的 
stock.py 脚本 使 用 Yahoo! 金融 服务 并 请 求 得 到 股票 行情 数据 。 而 示例 7-5 会 展示 如 何 把 Excel 演 
示 脚 本 与 股票 行情 示例 合并 起 来 。 最 后 ， 我 们 会 得 到 一 个 应 用 ， 可 以 从 网 上 下 载 股票 行情 ， 





Excel 
































将 其 直接 插入 Excel 中 ， 而 不 必 创 建 或 使 用 CSV 文件 作为 中 转 。 





示例 7-5 RTS Excel 示例 Cestock.pyw) 


本 脚本 从 Yahoo! 下载 股票 行情 ， 然 后 把 数据 写 入 Excel 中 。 
1 #!/usr/bin/env python 





2 
3 from Tkinter import Tk 

4 from time import sleep, ctime 

5 from tkMessageBox import showwarning 
6 from urllib import urlopen 

7 import win32com.client as win32 

8 


9 warn = lambda app: showwarning(app, 'Exit?') 

10 RANGE = range(3, 8) 

11 TICKS = ('YHOO', 'GOOG', 'EBAY', 'AMZN') 

12 COLS = C'TICKER', 'PRICE', 'CHG', '%AGE') 

13 URL = 'http://quote.yahoo.com/d/quotes.csv?s-Xs&f-sllclp2' 


15 def excel(): 
16 app = 'Excel' 


18 ss = xl.Workbooks .Add() 

19 sh = ss.ActiveSheet 

20 xl.Visible - True 

21 sleep(1) 

22 

23 sh.Cells(1, 1).Value = 'Python-to-%s Stock Quote Demo' % app 
24 sleep(1) 

25 sh.Cells(3, 1).Value = 'Prices quoted as of: %s' % ctime() 
26 sleep(1) 

27 for i in range(4): 

28 sh.Cells(5, i«1).Value = COLS[i] 

29 sleep(1) 

30 sh.Range(sh.Cells(5, 1), sh.Cells(5, 4)).Font.Bold - True 
31 sleep(1) 

32 row = 6 


win32.gencache.EnsureDispatch('%s.Application' % app) 


前 为 止 ， 在 本 章 中 看 到 的 例子 都 是 用 于 让 你 对 使 用 Python 控制 Microsoft Office 产 
， 其 中 的 一 些 已 经 在 我 的 日 常 工 














然后 








取 股 票 行情 


if 


第 1 一 13 行 


请 先 对 第 13 SNB UR YR. (EX 





u 
for data in u: 


tick, price, chg, per 


sh.Cells(row, 
sh.Cells(row, 
sh.Cells(row, 
sh.Cells(row, 
row += 1 
sleep(1) 
u.close() 


warn(app) 
ss.Close(False) 
xl.Application.Quit( 


' 





name --' main 
TkO .withdraw() 
excel() 


1).Value 
2).Value 
3).Value 
4).Value 
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urlopen(URL % ','.join(TICKS)) 


data.split(',') 
eval(tick) 


chg 

















里 使 


















































是 填充 到 单元 格 当 : 


单 


> 


电子 表格 中 。 


Mp Sz ok Zu 





第 15 一 32 行 
核心 函 














第 34—43 4T 


同 第 13 章 的 例子 一 样 ， 打 开 URL (第 34 行 )， 不 过 这 上 





。 在 本 章 ! 


数 的 第 一 部 分 是 
将 标题 和 时 间 改 写 入 单元 格 ， 
从 表格 的 第 6 




















启动 Excel (4 
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('96.2f' % round(float(price), 2)) 


eval(per.rstripO) 


3 了 一 个 简单 的 脚本 用 于 从 Yahool! 金 融 服 务 获 
， 我 们 会 将 该 脚本 的 核心 组 件 整合 到 本 例 中 ， 将 其 数据 导入 到 Excel 


8 17—21 行 )， 这 里 和 之 前 的 例子 是 一 样 的 。 然 后 








(第 23—29 行 )， 接 下 来 写 入 列 标题 并 
行 开始 ， 剩 下 的 单元 格 月 

















第 45—51 4T 
脚本 ， 
图 7-7 





























， 每 次 一 列 数据 ， 




















PS rua 


字符 串 


剩 下 的 行 复 制 了 之 前 用 过 的 代码 。 
展示 了 脚本 执行 后 写 有 真实 数据 的 窗 
需要 注意 的 是 ， 数 据 列 丢失 了 数值 


























不 再 将 数据 写 入 标 ? 





各 


Er 


AH C58 3013 . 








于 写 入 真实 的 股票 行情 数据 (第 32 行 )。 








H. 
的 原 有 格式 ， 这 是 因 














Edi HH. T 











每 个 公司 一 行 6835-4219 。 








为 Excel 使 用 了 默认 的 





元 格格 式 将 其 另存 为 数值 型 。 原 本 小 数 点 后 包含 两 位 数字 的 格式 在 这 里 会 丢失 ， 比 如 ， 


Cee 





= 

















行 解决 )。 





ef Python 传 入 的 是 “34.20”， 显 示 的 却 是 “34.2”。 对 于 “ 较 上 次 收盘 的 变动 ”一 列 而 
， 除 了 小 数 点 后 位 数 丢 失 外 ， 值 前 面 表示 上 涨 的 “+” 号 也 丢失 了 (对比 Excel 的 输出 
及 第 13 章 中 示例 13-1 [stock.py] 的 原始 文本 输出 版 本 。 这 些 问题 会 作为 本 章 结 尾 处 的 练 
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Ej Microsoft Excel - Book1 | (Of x} 


:图 ] File Edit View Insert Format Tools Data Window Help 


* Adobe PDF -8X 


AT ~ fx Python-to-Excel Stock Quote Demo 


C 
P ython-to-IExcel Stock Quote Demo 


Prices quoted as of. Sat May 27 02:34:32 2006 


TICKER PRICE CHG %AGE 

YHOO 33.02 0.1 0.30% 
GOOG 381.35 -1.64 -0.43% 
EBAY 34.2 0.32 0.94% 
AMZN 36.07 0.44 1.23% 








7.4.2 Outlook 





Al 7-7 Python-to-Excel 股票 行情 演示 脚本 Cestock.pyw) 





起 初 ， 我 们 希望 给 读者 一 个 Outlook 脚本 的 示例 ， 它 用 来 操纵 地 址 短 或 者 发 送 和 接收 


邮件 。 不 过 ， 鉴 于 Outlook 的 安全 问题 ,我 们 决定 避免 这 些 类 别 ， 
用 的 例子 。 




















而 改 为 给 出 一 个 非常 有 





像 我 们 这 些 平 常 使 用 命令 行 构建 应 用 的 人 , 一 般 都 会 需要 某 种 文本 编辑 器 来 协助 我 们 











工作 。 不 考虑 不 同 编辑 器 拥 钙 之 间 的 争论 ， 这 些 工具 包括 : Emac 




















s. vi (及 其 更 加 现代 化 
































的 替代 品 Vim 或 gVim) 及 一 些 其 他 编辑 器 。 对 于 这 些 工具 的 用 户 而 言 ， 使 用 Outlook 对 

















话 框 窗口 编辑 邮件 回复 可 能 并 不 是 他 们 所 喜欢 的 方式 。 所 以 这 里 使 用 Python 来 满足 他 们 











的 愿望 。 





本 脚本 受到 了 John Klassa 于 2001 年 创建 的 原始 版 本 的 启发 ，j 








首 且 本 脚本 也 很 简单 : 当 





你 在 Outlook 中 回复 邮件 时 ， 它 会 启动 你 所 选择 的 编辑 器 ， 并 将 当前 编辑 对 话 框 窗口 中 的 邮 























件 回复 内 容 传 进去 ， 允 许 你 使 用 自己 喜欢 的 编辑 器 编辑 剩余 的 邮件 ， 














刚 编辑 的 文本 蔡 代 对 话 框 窗口 中 的 内 容 。 最 终 你 只 需要 单 击 Send 按钮 即 可 。 
































outlook_edit.pyw。.pyw 扩展 名 用 于 抑制 终端 的 显示 ， 其 目的 
是 运行 一 个 用 户 命令 行 交 互 非 必需 的 GUI 应 用 。 在 看 代码 之 
前 ， 先 描述 一 下 它 是 如 何 工 作 的 。 当 它 启 动 时 ， 你 会 看 到 一 
个 简单 的 用 户 界面 ， 如 图 7-8 所 示 。 

当 你 使 用 电子 邮件 时 ， 可 能 有 一 封 邮件 需要 你 回复 ， 因 图 7-8 














































































































然后 在 退出 时 ， 用 你 刚 








TD M A RinAGE 。 我 们 将 其 命名 大 
可 以 从 命令 行 运行 该 工具 。 我 们 将 其 命名 为 
Outlook Edit Launcher v0.2 





Outlook 的 邮件 编辑 器 GUI 


























此 你 需要 单 击 Reply 按钮 ,然后 弹出 类 似 图 7-9 所 示 的 窗口 ( 当 。 P9 














然 ， 不 包括 其 中 的 内 容 )。 


= 





面板 Coutlook_edit.pyw) 
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IRE: Gmail Update and Invitation - Message (Plain Text) 
f Ele Edt yew Insert Format Joos Actions Help 
isend | 园 TE Attach as Adobe POF 





[E The Gmail Team <qmail-noreply@gmail.com> 


Cc. | | 
‘Subject: re: Gmail Update and Invitation 





From: The Gmail Team (mailto: gmail-noreply@ gmail.com) 





Sent: Friday, February 18, 2005 12:42 AM 
To: vesleyBsome.email.address 
Subject: Gmail Update and Invitation 


Hi there, 


Thanks for signing up to be updated on the latest Gmail 
happenings. We hope it's been worth the wait, because 
we're excited to finally offer you an invitation to open 
a free Gmail account! 


Since last April, we've been vorking hard to create the 
best email service possible. It already comes vith 1,000 
megabytes of free storage, poverful Google search zi 











Ds 











7-9 ”标准 的 Outlook 回复 对 话 框 窗口 















































现在 ， 相 比 于 在 这 个 简陋 的 对 话 框 窗口 中 
编辑 器 (你 所 选择 的 编辑 器 )。 当 你 设置 好 outlook edit.pyw 所 使 用 的 编辑 器 之 后 ， 












































的 Edit 按钮 。 在 本 例 中 将 其 硬 编码 为 gVim 7.3， 不 过 你 也 可 以 使 用 环境 变量 ,或 者 让 用 户 通 


过 命令 行 自 己 指定 (参见 本 章 结尾 处 的 相关 练习 )。 
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行 编辑 而 言 ， 你 可 能 更 希望 使 用 一 个 不 同 的 


单 击 GUI 








对 于 本 节 中 的 图 片 ， 我 们 使 用 的 是 Outlook 2003。 当 该 版 本 的 Outlook 检测 到 有 外 部 脚 
本 请 求 访问 它 时 ， 它 会 显示 如 图 7-5 所 示 的 警告 对 话 框 。 当 你 选择 同意 后 ， 一 个 新 的 gVim 
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窗口 会 打开 ， 并 且 包 含 Outlook 回复 对 话 框 中 的 内 容 ， 如 图 7-10 所 示 。 


V. tmpz3fsTk (~\Local Settings\ Temp) - GYIM1 
Ee Edt Tools Syntax 
anslo] 


----Üriginal Message 
ron: The Gnail Team [mailto:gnail-noreply@gnail .con) 


ubject: Gmail Update and Invitation 


i there, 


hanks for signing up to be updated on the latest Gmail happenings.We hope it's 
een worth the wait, because we're excited to finally offer you an invitation to 
open a free Gnail account* 


ince last April, we've been working hard to create the best email service possi 
le. It already cones with 1,000 megabytes of free storage, powerful Google sear 
h technology to find any message you want instantly, and a new way of organizin 
enail that saves you tine and helps you make sense of all the information in y 
ur inbox. 


nd here are just sone of the things that we've added in the last few months: 








X 
Hn 

















7-10 显示 在 gVim 编辑 器 窗口 





HI] Outlook 对 话 框 内 容 
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此 时 ， 你 可 以 添加 你 的 回复 ， 按 照 你 的 想法 编辑 邮 作 


速 且 友好 的 回复 ( 见 




















图 7-11)。 保 存 文件 并 退出 编辑 器 之 后 ， 窗 口 
容 会 被 推送 回 你 不 愿意 使 用 的 Outlook 回复 对 话 框 中 〈 见 图 7-12)。 中 此 时 你 所 需要 做 的 事情 









































就 是 单 击 Send 按钮 ， 然 后 就 完成 了 ! 
现在 我 们 来 看 下 脚本 本 身 ， 如 示例 7-6 所 示 。 从 代码 的 逐 行 解释 中 可 以 看 出 ， 该 脚本 分 
为 4 个 主要 部 分 : 使 用 钧 子 进入 Outlook， 并 得 到 当前 正在 活动 的 条 目 ; 清理 Outlook WAKE 





中 的 文本 ， 并 将 其 传 入 一 个 临时 文件 ， 使 用 该 临时 文本 文件 打 姑 





























文本 文件 的 内 容 ， 并 将 其 传 回 Outlook 的 对 话 框 窗口 中 。 


E tmpz3fs7k + (~\Local Settings Temp) - GVIM1 
Ele Edt Tools Syntax Buffers Window Help 
amA sTG BRA SSA vao??? 


Thanks, I'd love onet? 


Original Message 

rom: The Gmail Team [mailto:gnail-noreply@gnail.con] 
ent: Friday, February 18, 2885 12:42 RM 

To: wesley@sone .email.address 


ubject: Gmail Update and Invitation 


i there, 


Thanks for signing up to be updated on the latest Grail happenings.We hope it's 


een worth the wait, because we're excited to finally offer you an invitation to 


open a free Gmail account? 


ince last April, we've been working hard to create the best email service possi 
le. It already comes with 1,000 megabytes of free storage, powerful Google sear 
h technology to find any message you want instantly, and a new way of organizin 
email that saves you time and helps you make sense of all the information in y 


ur inbox. 


6,0-1 






















































图 7-11 在 gVim 编辑 器 窗口 中 一 个 编辑 的 回复 
IE RE: Gmail Update and Invitation - Message (Plain Text) 
* file Edt View Insert Format Tools Actions Heb 
:send | ig] | TE Attach as Adobe POF ; @ Snagit Éj! | window E 


—— 
Subject: RE: Gmal Update andinvtation 


Thanks, I'd love one!! 





Best regards, 
-Wesley 











----- Original Message----- 

From: The Gmail Team [mailto:gmail-noreply8gmail.com] 
Sent: Friday, February 18, 2005 12:42 AM 

To: wesley@some.email.address 

Subject: Gmail Update and Invitation 





Hi there, 


Thanks for signing up to be updated on the latest Gmail 
happenings.We hope it's been vorth the vait, because 

we're excited to finally offer you an invitation to open 

a free Gmail account! a 


7-12 ”使 用 修改 过 的 内 容 
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到 Outlook 对 话 框 中 








Top 


a 








的 剩余 部 分 。 这 里 将 只 进行 一 个 快 
会 关闭 ， 并 且 你 回复 的 内 








Iu 

















一 个 编辑 器 ; 读 取 编辑 后 的 
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示例 7-6 Outlook 编辑 器 示例 (outlook_edit.pyw) 
为 什么 要 在 Out Look 的 对 话 框 窗口 中 新 建 或 回复 邮件 呢 ? 














HI 











n 





























#!/usr/bin/env python 


1 

2 

3 from Tkinter import Tk, Frame, Label, Button, BOTH 
4 import os 

5 import tempfile 

6 import win32com.client as win32 

7 

8 

9 





def editO: 
olook = win32.Dispatch('Outlook.Application') 
10 insp = olook.ActiveInspector() 
11 if insp is None: 
12 return 
13 item = insp.CurrentItem 
14 if item is None: 
15 return 
16 
17 body = item.Body 
18 tmpfd, tmpfn = tempfile.mkstemp() 
19 f = os.fdopen(tmpfd, 'a') 
20 f.write(body.encode( 
21 'ascii', 'ignore').replace('NrXn', '\n')) 
22 f.close() 
23 
24 #ed = r"d:NXemacs-23.2NbinNemacsclientw.exe" 
25 ed = r"c:\progra~1\vim\vim73\gvim.exe" 
26 os.spawnv(os.P_WAIT, ed, [ed, tmpfn]) 
27 
28 f = open(tmpfn, 'r') 
29 body = f.read().replace('\n', '\r\n') 
30 f.close() 
31 os.unlink(tmpfn) 
32 item.Body = body 
33 
34 if name --' main 
35 tk = TkO 
36 f = Frame(tk, borderwidth-2) 
37 f.pack(#i11=BOTH) 
38 Label (f, 
39 text="Outlook Edit Launcher v0.3").pack() 
40 Button(f, text="Edit", 
41 fg-'blue', command=edit) .pack(fi11=BOTH) 
42 Button(f, text-"Quit", 
43 fg='red', command-tk.quit).pack(fill-BOTH) 
44 tk.mainloop() 
逐 行 解释 
第 1~6 47 


尽管 在 本 章 的 例子 中 Tk 并 没有 起 到 多 么 巨大 的 作用 ， 但 是 它 为 控制 用 户 和 目标 Office 
应 用 之 间 的 接口 提供 了 执行 的 外 党 。 因 此 ， 我 们 需要 为 这 个 应 用 提供 一 些 Tk 常量 和 控件 。 
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因为 我 们 需要 一 些 操作 系统 相关 的 条 目 ， 所 以 导入 os 模块 (在 这 里 实际 上 是 nt)。 而 tempfile 
是 还 没有 讨论 过 的 一 个 Python 模块 ， 它 可 以 提供 一 些 工 具 和 类 ,用 于 帮助 开发 者 创建 临时 文 
件 、 文 件 名 和 目录 。 最 后 ， 我 们 需要 到 Office 应 用 及 其 COM 服务 器 的 PC 端 连 接 。 

第 8 一 15 行 

本 部 分 是 代码 中 仪 有 的 PC COM 客户 端 代码 行 ， 在 这 里 会 获得 一 个 正在 运行 的 Outlook 
实例 ， 并 查找 当前 处 于 激活 状态 的 对 话 框 (应 该 是 oIMailltem)。 媚 无 法 进行 此 查询 ， 或 者 
找 不 到 当前 条 目 ， 那 么 应 用 会 无 提示 的 退出 。 如 果 是 这 种 情况 ， 你 将 会 发 Edit 辑 按 钮 会 立即 
再 次 出 现 而 不 是 变 灰 《如 果 正 常 运行 ， 编 辑 器 窗口 将 会 弹出 )。 

需要 注意 的 是 ， 这 里 选择 使 用 动态 调度 (C win32.Dispatch() ) 而 不 是 静态 调度 
(win32.gencache.EnsureDispatch())， 因 为 动态 调度 往往 能 够 更 快速 地 启动 ， 男 外 我 们 不 需要 
在 脚本 中 使 用 任何 缓存 的 常量 值 。 

第 16—22 行 

日 当前 对 话 框 (撰写 新 邮件 或 邮件 回复 ) 窗口 确定 后 ， 首 先 要 做 的 事情 就 是 抓 取 文 本 

并 将 其 写 入 临时 文件 中 。 不 可 否认 的 是 ， 这 里 对 于 Unicode 文本 和 注音 字符 的 处 理 并 不 好 ， 
我 们 将 会 把 所 有 非 ASCI 字符 从 对 话 框 中 过 滤 出 去 (本 章 结 尾 会 有 一 个 练习 来 解决 这 个 问题 ， 
修改 该 脚本 使 其 能 够 正确 处 理 Unicode 字符 。 

默认 情况 下 ，UNIX 风格 的 编辑 器 不 会 处 理 在 PC 中 创建 的 文件 里 用 做 行 结束 符 的 回 车 - 
换行 对 ， 所 以 在 编辑 的 预 处 理 和 后 处 理 阶 段 都 会 对 其 进行 额外 的 处 理 ， 在 传输 文件 到 编辑 器 
之 前 会 将 其 转换 为 只 有 换行 符 ， 然 后 再 在 编辑 完成 后 转换 回来 。 基 于 文本 的 现代 编辑 器 会 更 
加 干净 地 处 理 \n， 所 以 这 不 会 再 像 过 去 那样 是 个 问题 了 。 























第 24—26 fT 














这 里 会 











有 一 些 魔法 发 生 ， 在 设置 好 9 









































Hawa CR 25 行 指定 了 系统 中 vim 二 进 


制 文件 的 








位 置 ， 而 注释 掉 的 第 24 行 是 Emacs 的 位 置 )， 启 动 编辑 器 ， 并 将 临时 文件 名 作为 参数 假设 





在 命令 


26 47! 
P_WA 

















我 们 希望 Edit 





tb. d 


























辑 器 将 目标 文件 名 作为 程序 名 之 后 的 第 














的 os.spawnvO 完 成 。 





























IT 标记 














回复 


限制 , 但 是 实际 上 它 有 助 于 


此 外 还 有 几 个 可 以 对 spawnvO 做 








统 中 都 可 以 使 

















按钮 一 直 保 持 灰色 ， 从 而 使 








JF “ie” EQ) 进程 
















































































jdm 





























Te. 























个 参数 )。 这 些 操作 会 通过 调用 第 























j 户 不 会 同时 尝试 编辑 多 次 。 这 听 起 来 像 是 个 
FE 意 力 , 而 不 会 在 整个 桌面 上 存在 很 多 个 部 分 编辑 的 





的 扩展 ， 其 中 P_NOWAIT 标记 在 POSIX 和 Windows 系 























] 5 P. WAIT 正好 相反 , 它 将 不 会 等 





另外 两 个 
Windows H 


P DETACH 则 类 似 P NOWAIT, 
Hj, E SEEK AST 








J] 能 使 | 




















FFI 


到 的 标记 是 P_OVERLAY 和 P_DETACH， 这 两 个 标记 都 
Yo P_OVERLAY 将 使 子 进程 蔡 代 父 进程 ， 如 同 POSIX 的 exec()i 

















局 动 子 进 





il) eT A. 














进程 结束 , 而 是 并 行 运行 两 个 进程 )。 











日 























AE 

















ij 











IF 





Akb 
7Z* AG 


一样 。 而 
程 后 与 父 进程 并 行 运行 ， 只 不 过 它 是 在 后 台 运 行 


第 28 一 32 行 
接 下 来 的 代码 
JF AS POT TEE H 
Ea 也 就 是 说 ， 这 
第 34—44 41 












































DA 


























会 在 编辑 器 关闭 后 打开 用 

















可 能 会 产生 一 些 副 作 有 





















































d, &$5 OH 


JÆ main0 函 数 中 构建 ，main(0) 会 使 用 Tk(inter) 来 





于 更 新 的 | 
的 文本 。 请 注意 ， 我 们 只 是 将 数据 传 回 Outlook, EAE 
新 ) 添加 签名 、 移 除 换行 符 等 。 


第 7 章 


各 时 文件 , HX 





Tu 





ZH 
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得 其 内 容 , 删除 临时 文件 ， 
日 上 Outlook 清理 消 






































il 





ta! 


























^if 


有 单个 框架 的 用 户 界面 ， 






























































其 中 包括 一 个 应 用 描述 标签 ， 以 及 两 个 按钮 ，Edit 按钮 会 根据 活动 的 Outlook 对 话 框 派生 编 
辑 器 ， 而 Quit 按钮 会 终止 应 用 。 
7.4.3 PowerPoint 

最 后 一 个 更 加 现实 的 应 用 示例 是 Python 用 户 向 我 请 求 了 很 多 年 的 例子 , 我 很 高 兴 地 说 现 
在 我 终于 可 以 在 社区 中 展示 这 个 例子 了 。 如 果 你 曾经 看 到 过 我 在 会 议 中 发 表演 讲 ， 很 可 能 
到 过 我 向 观众 展示 我 演讲 的 纯 文 本 版 本 的 策略 ， 这 可 能 会 令 一 些 没 有 听 过 我 演讲 的 观众 感到 
震惊 。 


对 于 那个 纯 文 


演示 文稿 ， 完 成 风格 模板 ， 然 后 在 观众 的 尺 讶 ! 




















本 文件 ， 我 会 


局 动 这 个 脚本 ,使 月 



















































































局 动 幻 灯 片 演示 。 

















H Python 的 功能 


自动 生成 一 个 PowerPoint 
不 过 ， 当 你 意识 到 它 只 是 









































个 简单 的 易于 编写 的 Python 脚本 时 ， 你 就 会 觉得 这 其 实 并 没有 什么 了 不 起 的 ， 甚 至 你 自己 也 
可 以 完成 同样 的 事情 。 

其 工作 流程 为 : GUI 启动 后 〈 见 图 7-13a) 提示 用 户 输 入 文本 文件 的 地 址 。 如 果 用 户 输 
入 的 是 文件 的 一 个 合法 位 置 ， 事 情 将 会 进展 顺利 ;不 过 如 果 文 件 无 法 找到 或 者 输入 了 
“DEMO”, 则 会 启动 一 个 演示 。 如 果 给 出 了 文件 名 但 是 因为 某 种 原因 应 用 无 法 打开 ， 则 会 在 
文本 框 中 写 上 DEMO 字符 串 ， 以 及 文件 无 法 打开 的 错误 说 明 〈 见 图 7-13b )。 


Ca) 启动 时 清空 文 伯 









Enter file [or "DEMO": 





F 名 输入 字段 








Z] 











如 








图 7-14 所 示 


:, 下 一 步 是 连接 一 个 正在 











N Python 语法 的 纪 


7-13  Text-to-PowerPoint GUI #41 


pes 


运行 








Enter file [or "DEMO 小 


[DEMO {can't open C:py* 





Qu) 
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(b) 如 果 demo 请 求 或 出 现 其 他 


He 
H 








c 











iH 





误 ， 显 示 DEMO 


PS LN: 


字符 


H 
5] 





面板 (txt2ppt.pyw) 





的 PowerPoint 应 月 


E 文 本 文件 的 内 容 创 建 其 他 幻灯 片 。 














《如果 不 存在 则 启动 一 个 








新 的 PowerPoint， 并 获得 其 句柄 )， 创 建 标 题 幻灯 片 ( 基 于 全 大 写 的 幻灯 片 标题 )， 然 后 基于 
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E Microsoft PowerPoint - [Presentation! ] 
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Presentation Title 


Clickto add subtitle 











Click to add notes 
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图 7-14 PowerPoint 创建 demo 演示 文稿 的 标题 幻灯 片 














图 7-15 所 示 的 是 处 理 中 的 脚本 ,创建 演示 文稿 的 最 后 一 页 幻灯 片 。 当 捕获 该 屏幕 时 ， 最 
后 一 行 还 没 添加 到 幻灯 片 中 《所 以 这 不 是 代码 中 的 bug) 












E Microsoft PowerPoint - [Presentationt] 
HN] ple Edt yew Insert Format Tools Shde Show window Hep Adobe POF x 
OSE RAa S27 AAG O-O ETF EE 8 
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Slide 2 Title 


* slide 2 bullet 1 
* slide 2 bullet 2 
— Slide 2 bullet 2a 
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图 7-15 创建 demo 演示 文稿 的 最 后 一 页 幻灯 片 











最 后 ， 代 码 添加 了 一 页 辅助 的 幻灯 片 ， 以 告知 用 户 幻 灯 片 放映 要 开始 了 〈 见 图 7-16), 
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并 给 出 一 个 精巧 的 倒计时 ， 从 3 数 到 0 截图 取 自 倒计时 刚 开始 数 到 2 的 时 候 )。 然 后 开始 约 
灯 片 放映 ， 而 不 需要 任何 额外 的 处 理 。 图 7-17 描绘 了 其 一 般 的 样子 〈“ 白 底 黑 字 )。 
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PETI) O reco [E] S (i o B Or m ono : 
È Arial -1 =| B z wu RE] mii; (A EE A | oen Ë 
Em» 到 | Eran dean ESE EY SOE estere Berita tnim 
1 1s 
:EE 

$ IT'S TIME FOR A 
3 B SLIDESHOW! 


2 















[Click to add notes 

mecs a» 

inen [3] nts - N C) E AGM) -az-c Ama 
Side of 4 Defaut Design English (U.S.) a 





图 7-16 启动 幻灯 片 时 的 倒计时 





Presentation Title 


optional subtitle 
































图 7-17 没有 应 用 模板 时 ， 约 灯 片 启动 后 的 效果 




















为 了 进行 展示 ， 现 在 我 们 要 应 用 一 个 演示 文稿 模板 〈 见 图 7-18)， 给 予 其 你 所 希望 的 外 
观 ， 然 后 就 可 以 从 这 里 开始 驾驭 它 了 。 
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Presentation Title 


optional subtitle 























图 7-18 ”应 用 模板 后 ， 完 成 的 PowerPoint 幻灯 片 放映 效果 
































示例 7-7 是 txt2ppt.pyw 脚本 的 代码 ， 接 下 来 是 其 对 应 的 代码 解 和 


T 








示例 7-7 Text-to-PowerP oint 转换 器 (txt2ppt.pyw) 
本 脚本 会 根据 一 个 类 似 Python 代码 格式 的 纯 文本 文件 生成 PowerPoint 演示 文稿 。 
#!/usr/bin/env python 





3 from Tkinter import Tk, Label, Entry, Button 
4 from time import sleep 
5 import win32com.client as win32 


7 INDENT = ' : 

8 DEMO = ''' 

9 PRESENTATION TITLE 

10 optional subtitle 


12 slide 1 title 


13 slide 1 bullet 1 

14 slide 1 bullet 2 

15 

16 slide 2 title 

17 slide 2 bullet 1 

18 slide 2 bullet 2 

19 slide 2 bullet 2a 

20 slide 2 bullet 2b 

21 i t 

22 

23 def txt2ppt(lines): 

24 ppoint = win32.gencache.EnsureDispatch( 
25 'PowerPoint.Application') 

26 pres = ppoint.Presentations.Add() 
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27 ppoint.Visible = True 

28 sleep(2) 

29 nslide = 1 

30 for line in lines: 

31 if not line: 

32 continue 

33 linedata = line.split(INDENT) 

34 if len(linedata) == 1: 

35 title = (line == line.upper()) 

36 if title: 

37 stype = win32.constants.ppLayoutTitle 

38 else: 

39 stype = win32.constants.ppLayoutText 

40 

41 s = pres.Slides.Add(nslide, stype) 

42 ppoint.ActiveWindow.View.GotoSlide(nslide) 

43 s.Shapes[0].TextFrame.TextRange.Text - line.title() 

44 body = s.Shapes[1].TextFrame.TextRange 

45 nline = 1 

46 nslide += 1 

47 sleep((nslide«4) and 0.5 or 0.01) 

48 else: 

49 line = '%s\r\n' % line.1stripQO 

50 body. InsertAfter(1ine) 

51 para - body.Paragraphs(nline) 

52 para.IndentLevel = len(linedata) - 1 

53 nline += 1 

54 sleep((nslide<4) and 0.25 or 0.01) 

55 

56 s = pres.Slides.Add(nslide,win32.constants.ppLayoutTitle) 

57 ppoint.ActiveWindow.View.GotoSlide(nslide) 

58 s.Shapes[0].TextFrame.TextRange.Text = "It's time for a slide- 
show!" .upper() 

59 sleep(1.) 

60 for i in range(3, 0, -1): 

61 s.Shapes[1].TextFrame.TextRange.Text - str(i) 

62 sleep(1.) 

63 

64 pres.SlideShowSettings.ShowType = win32.constants.ppShowType- 
Speaker 

65 ss = pres.SlideShowSettings.Run() 

66 pres.ApplyTemplate(r'c:\Program Files\Microsoft 
Office\Templates\Presentation Designs\Stream.pot') 

67 s.Shapes[0].TextFrame.TextRange.Text = 'FINIS' 

68 s.Shapes[1].TextFrame.TextRange.Text = '' 

69 

70 def _start(ev=None): 

71 fn = en.get().stripO 

72 try: 

73 f = open(fn, 'U') 

74 except IOError, e: 

75 from cStringIO import StringIO 

76 f = StringIO(DEMO) 

71 en.delete(0, 'end') 

78 if fn.lower() == 'demo': 

79 en.insert(0, fn) 

80 else: 


81 import os 
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82 
83 


& FE 





89 if 
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en.insert(0, 
r"DEMO (can't open %s: 96s)" 96 ( 
os.path.join(os.getcwd(), fn), str(e))) 
en.update idletasks() 
txt2ppt(line.rstrip() for line in f) 





f.close() 

name --' main ': 

tk = TkO 

lb = Label(tk, text='Enter file [or "DEMO"]:') 
lb.pack( 

en = Entry(tk) 

en.bind('«Return»', start) 

en.pack() 


en.focus set() 

quit = Button(tk, text-'QUIT', 
command-tk.quit, fg-'white', bg='red') 

quit.pack(fill='x', expand=True) 

tk.mainloop() 




















令 人 惊讶 的 是 ， 这 里 并 没有 导入 太 多 东西 。Python 已 经 包含 了 几乎 所 有 解决 该 问题 需要 
的 东西 。 类 似 Outlook 对 话 框 编辑 器 ， 我 们 需要 引入 一 些 基 础 的 Tk 功能 来 创建 外 碗 GUI 应 



































够 的 知识 使 用 这 种 方法 自行 创建 。 有 时 候 让 工具 显示 在 桌面 上 供 你 使 用 更 加 便捷 。 
























































]， 以 捕获 用 户 输入 。 当 然 ， 你 可 以 选择 通过 命令 行 接口 达到 此 目的 ， 不 过 你 已 经 























Vra 






















































































time.sleepO 函 数 的 使 用 纯粹 是 学 术 目 的 。 我 们 只 是 用 其 减 慢 应 用 的 速度 。 如 果 你 愿意 
可 以 选择 移 除 这 些 调用 。 这 里 使 用 它 的 原因 和 之 前 的 Excel 股票 示例 一 样 ， 都 是 为 了 减缓 





速度 , 因为 代码 通常 执行 得 者 


安排 的 。 


最 后 一 行 是 代码 的 关键 部 分 : PC 库 。 
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很 快 ， 人 们 会 怀疑 它 已 经 做 了 所 有 的 事情 或 者 认为 这 是 特意 


这 段 代 码 设置 了 两 个 通用 的 全 局 变量 值 。 第 一 个 变量 设置 了 默认 的 缩 进 层次 为 4 个 空格 ， 
很 像 PEP 8 风格 指南 中 Python 代码 缩 进 的 推荐 方式 ， 只 不 过 这 次 定义 的 是 演示 文稿 项 目 符号 
的 缩 进 层次 。 第 二 个 变量 是 一 个 约 灯 片 演示 文稿 的 示例 字符 串 ， 当 你 希望 通过 演示 来 了 解 脚 


本 是 如 何 工作 时 ， 或 者 将 其 作为 期 望 的 源 文本 文件 无 法 被 肢 

























































































本 找到 时 的 备份 时 ， 都 会 使 用 到 








它 。 这 个 静态 字符 串 也 为 你 提供 了 一 个 构造 源 文本 文件 的 例子 。 当 你 创建 完 演示 文稿 后 ， 就 














不 需要 再 查看 这 个 字符 串 了 。 
第 23 一 29 ft 
主 函 数 txt2ppt0 的 前 几 行 会 启动 PowerPoint， 创 建新 演示 文稿 ， 使 PowerPoint 应 用 在 桌 
面 上 显示 ， 暂 停 几 秒 ， 然 后 将 幻灯 片 计数 重 置 为 1。 
































"n 



































第 30—54 47 
txt2pptO 函 数 有 一 个 参数 : 组 成 演示 文稿 的 源 文 本 文件 的 所 有 行 。 可 以 让 这 个 函数 迭代 
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行 或 多 行 ， 之 后 一 个 幻灯 片 演示 文稿 就 创建 出 来 了 。 对 于 示例 字符 串 中 的 各 条 目 ， 我 们 


使 用 cStringIO.StringIO 对 象 来 迭代 其 文本 ， 
表达 式 。 当 然 如 果 你 使 





个 列表 解 
能 做 什么 呢 ? 















































可 到 处 理 





























而 对 于 真实 文件 ， 我 们 则 会 对 每 行使 用 生成 器 























] 的 是 Python 2.3 或 更 老 的 版 本 ， 则 需要 更 改 “生成 器 表达 式 ”为 
fat. Ant, BEN ER EFENA, EH 




















是 对 于 大 文件 而 言 ， 不 过 你 











器 循环 中 , 我 们 忽略 了 空白 行 , 然后 通过 字符 串 分 割 在 缩 进 上 实现 了 一 些 魔法 。 




















这 个 代码 片段 将 准确 展示 我 们 正在 做 的 事情 。 





>>> 'slide title'.split(' ') 


['slide 


>>> ' 


WRA H 
新 的 幻灯 片 ， 并 且 这 行文 字 是 幻灯 片 的 标题 。 

















一 层 缩 进 ， 它 依然 是 之 前 那 张 幻灯 片上 的 材料 


title'] 





lst level bullet'.split(' ') 
st level bullet'] 


2nd level bullet'.split(' ' 


'', '2nd level bul 





Llet'] 















































» BY fe HG ARS 








分 割 后 列表 里 只 有 一 个 字符 串 , 则 意味 着 我 们 开始 了 一 张 
如 果 列 表 长 度 大 于 1， 则 意味 着 我 们 至 少 有 


(不 用 新 建 一 张 幻灯 片 )。 对 于 前 者 来 说 ， 


















































这 个 站 语句 的 主要 部 分 位 于 第 3$ 一 47 行 。 我 们 将 首先 关注 这 一 块 代 码 ， 然 后 才 是 剩 下 的 


代码 。 











下 面 的 5 行 (第 35~39 行 ) 决定 了 这 是 标题 幻灯 片 还 是 标准 的 文本 幻灯 片 。 全 大 写字 符 























AE 


是 用 于 标题 幻灯 片 的 。 我 们 仪 仅 


通过 比较 划 



































与 全 大 写 版 本 是 否 相同 来 进行 判断 。 如 果 它 们 匹 









































配 ， 即 该 文本 是 全 大 写 的 ， 则 意味 着 该 幻灯 片 将 使 用 标题 布局 ， 通 过 PC 常量 ppLayoutTitle 
进行 设计 。 和 否则 ， 这 是 一 张 拥有 标题 和 文本 正文 的 标准 幻灯 片 (ppLayoutText)。 


在 我 们 决定 了 幻灯 片 的 布局 之 后 ， 

















第 41 行 创建 了 新 幻灯 片 ， 把 PowerPoint 指向 ($E 42 


























41) 那 张 筷 灯 片 (通过 使 其 成 为 活动 幻灯 片 )， 然 后 设置 标题 或 主 文本 框 的 内 容 , 使 用 首 字母 


大 写 的 形式 (第 43 行 )。 请 记 住 ，Python 是 从 0 开始 的 (Shape[0])， 而 Microsoft 更 习惯 从 1 












































开始 (Shape(1)) 一 一 任何 语法 都 是 可 接受 的 。 
剩 下 的 内 容 将 会 在 Shape[1] (2K Shape(2)) 部 分 中 ,我 们 将 其 称 为 正文 (第 44 行 ); 对 




















于 标题 幻灯 片 而 言 ， 它 将 会 是 划 
号 的 文本 。 








子 标题 ， 而 对 于 标准 幻灯 片 而 言 ， 它 将 会 是 使 用 了 项 目 符 























在 该 过 语句 块 的 剩 下 的 代码 中 (第 45 一 47 行 )， 我 们 对 行 数 进行 标记 ， 说 明 这 是 本 页 幻 


灯 片 中 写 入 的 第 一 行 ， 弟 增 | 











让 


i 








再 来 看 看 else 子 句 ， 我 1 



































于 记录 演示 文稿 中 幻灯 
j 户 可 以 看 到 Python 脚本 是 如 何 控 制 PowerPoint 执行 的 。 


片 总 页 数 的 计数 器 ， 然 后 暂停 几 秒 从 而 











门 移动 到 用 于 同一 约 灯 片 剩 下 的 列表 执行 的 代码 中 ， 它 将 会 去 填 
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充 约 灯 片 的 第 二 个 文本 框 或 正文 。 因 为 我 们 已 经 使 用 缩 进来 指明 我 们 在 哪里 以 及 缩 进 的 层级 
了 ， 这 些 行 首 的 空格 不 再 需要 ， 所 以 我 们 将 其 删除 〈strlstrip0)， 并 将 文本 插入 正文 中 《第 
49—50 49 。 
剩 下 的 代码 块 会 将 文本 缩 进 为 正确 的 项 目 符号 层级 《如果 是 标题 约 灯 片 ， 则 没有 缩 进 ， 
设置 缩 进 层 级 为 0 对 文本 没有 影响 ), 递增 本 页 幻灯 片 的 行 计数 , 在 最 后 添加 一 个 短 的 暂停 以 
使 其 执行 变 缓 〈 第 551—541 . 

第 56—62 íF 

在 所 有 主要 的 约 灯 片 都 创建 完毕 后 ， 我 们 在 最 后 额外 添加 了 一 张 标题 约 灯 片 ， 通 过 动态 
改变 文本 从 3 到 0 倒计时， 来 宣布 现在 到 幻灯 片 放映 时 间 了 。 

第 64—68 íF 

这 些 行 的 主要 目的 是 启动 幻灯 片 放映 。 实 际 上 只 有 最 开始 的 两 行 (第 64 和 65 行 ) 是 做 
这 件 事 的 。 第 66 行 应 用 了 模板 。 我 们 将 其 放 在 幻灯 片 放映 开始 之 后 ， 目 的 是 让 你 能 够 看 到 
它 一 一 这 种 方式 更 加 令 人 印象 深刻 。 这 段 代码 的 最 后 两 行 GE 67~68 行 ) XE ELT “it’s time for 
a slideshow” 这 页 幻灯 片 ， 以 及 之 前 使 用 的 倒计时 。 

第 70—100 4r 

_start() FE A A EAT MSS Fb ip 038 TAA AA. RINE txt2pptO 能 够 在 其 他 地 方 
导入 和 使 用 ， 而 _start0 函 数 则 需要 GUI。 先 暂时 跳 到 第 90—100 行 ， 可 以 看 到 我 们 创建 了 一 
个 Tk 的 GUI 包括 一 个 文本 输入 框 ( 含 有 一 个 标签 ,用 于 提示 用 户 输入 文件 名 或 输入 DEMO” 
来 查看 演示 ) 和 一 个 Quit 按钮 。 
因此 ，_startO 函 数 从 获取 该 输入 框 中 的 内 容 开 始 〈 第 71 行 ), 然后 会 尝试 打开 该 文件 (第 
73 行 ,参见 本 章 结尾 的 相关 练习 )。 如 果 文 件 打开 成 功 , 则 它 会 略 过 except FA), 调用 txt2pptO 
处 理 文件 ， 在 完成 后 关闭 该 文件 〈 第 86~87 4D 。 
如 果 发 生 异 常 ， 处 理 程序 会 检查 是 否 选中 了 demo E 77~79 行 )。 如 果 是 这 样 ， 则 它 会 
读 取 示例 字符 串 到 一 个 cStringIO.StringIO 对 象 中 (第 76 行 )， 然 后 将 其 传递 给 txOpptO: T 
则 ， 这 个 演示 仍然 会 运行 ， 不 过 另外 还 会 将 错误 消息 插入 文本 框 中 ， 来 告知 用 户 失 败 发 生 的 
原因 CB 81—84 13. 。 


7.4.4 总 结 


希望 通过 本 章 的 学 习 , 你 可 以 理解 如 何 使 用 Python 进行 COM 客户 端 编程 ,尽管 Microsoft 
Office 应 用 的 COM 服务 器 健壮 性 更 好 ， 功 能 更 全 面 ， 但 是 你 在 这 里 所 学 到 的 东西 已 经 可 以 
必用 到 其 他 使 用 了 COM 服务 器 的 应 用 中 了 , 甚至 是 作为 Microsoft Office {Kim HY) StarOffice 
的 开源 版 本 。 

由 于 Oracle 收购 了 Sun Microsystems， 也 就 是 StarOffice 和 OpenOffice 最 初 的 合作 赞助 
fl, StarOffice 的 继任 者 将 其 改称 为 Oracle Open Office, 使 得 开源 社区 的 成 员 认 为 OpenOffice 
的 状态 会 受到 危及 ， 从 而 又 创建 了 LibreOffice 分 文 。 因 为 它们 都 基于 相同 的 代码 库 ， 所 以 它 
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们 可 以 共享 相同 的 COM 风格 接口 ， 该 接口 称 为 通用 网 络 对 象 (UNO)。 可 以 使 用 PyUNO 模 
块 来 驱动 OpenOffice 或 LibreOffice 应 用 处 理 文档 , 比如 , 编写 PDF 文件 , 转换 Microsoft Word 
为 OpenDocument 文本 CODTO 格式 、HTML 等 。 


7.5 “相关 模块 / 包 





















































Python Extensions for Windows 
http://pywin32.sf.net 

xlrd. xlwt (Python 3 版 本 可 用 ) 
http://www.lexicon.net/sjmachin/xIrd.htm 
http://pypi.python.org/pypi/xlwt 
http://pypi.python.org/pypi/xlrd 

pyExcelerator 
http://sourceforge.net/projects/pyexcelerator/ 

PyUNO 
http://udk.openoffice.org/python/python-bridge. html 


7.6 练习 





7-1 Web 服务。 使 用 Yahoo! 股票 行情 示例 (stock.py)， 修 改 该 应 用 ， 使 其 保存 行情 数 
据 到 文件 中 而 不 是 在 屏幕 中 显示 。 选 做 题 : 修改 脚本 ， 以 便 用 户 可 以 选择 在 屏幕 上 
显示 行情 数据 还 是 将 其 保存 到 文件 中 。 

7-2. Excel 和 Web 页面。 创建 一 个 应 用 ， 从 Excel 电子 表格 中 读 取 数据 ， 并 将 
等 价 的 HTML 表格 中 如果 愿意 ， 可 以 使 用 第 三 方 HTMLgen 模块 )。 

7-3 Office 应 用 和 Web 服务 。 对 于 任意 已 存在 的 Web 服务 ， 无 论 是 REST 风格 的 还 是 

基于 URL AN, 将 其 数据 写 入 Excel 电子 表格 中 , 或 者 比较 好 看 的 Word 文档 中 。 对 

其 进行 适当 的 格式 化 以 便于 打印 。 选 做 题 ， 同 时 支持 Excel 和 Word. 

7-4 Outlook 和 Web 服务 。 与 练习 7-3 类 似 ， 除 了 将 数据 写 到 一 封 新 的 邮件 消息 中 并 使 

Outlook 发 送 外 ， 其 他 工作 均 相 同 。 选 做 题 ， 改 为 使 用 常规 的 SMTP 发 送 邮 件 ， 

其 他 工作 不 变 〈 可 以 参考 第 3 章 的 内 容 )。 

7-$ 幻灯 片 放映 生成 器 。 丰 练习 7-15 一 7-24 中 , 你 将 为 本 章 之 前 提 到 的 幻灯 片 放映 生成 
器 txt2ppt.pyw 添加 新 的 功能 。 本 练习 会 让 你 去 思考 基础 知识 ， 但 是 使 用 非 专 有 的 
格式 。 实 现 一 个 与 txt2ppt.pyw 类 似 的 脚本 ， 蔡 换 掉 PowerPoint 的 接口 ， 改 用 开源 
格式 (比如 HTML5) 进行 输出 。 可 以 查看 LandSlide、DZSlides 和 HTMLSWow 等 
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映射 到 
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7-0 


7-7 


7-8 


7-9 


7-10 


7-1 


— 


7-12 


























项 目 去 寻找 一 些 灵 感 。 你 可 以 在 http://en.wikipedia.org/wiki/Web-based_slideshow 上 
找到 更 多 此 类 项 目 。 为 用 户 创建 一 个 纯 文 本 规范 格式 ， 将 其 归档 ， 并 让 这 些 用 户 使 
该 工具 产 出 一 些 可 以 在 台 上 使 用 的 幻灯 片 。 

Outlook、 数 据 库 和 地 址 簿 。 编 写 程序 ， 从 Outlook 地 址 筹 中 取得 内 容 ， 并 将 需要 的 
字段 存储 到 数据 库 中 。 数 据 库 可 以 是 文本 文件 、DBM 文件 ， 甚 至 是 RDBMS (可 
以 参考 第 6 章 的 内 容 )。 选 做 题 : 进行 相反 的 操作 ,从 数据 库 中 读 取 联系 人 信息 (或 
允许 用 户 直 接 输 入 )， 并 在 Outlook 中 创建 或 更 新 地 址 敌 。 
Microsoft Outlook 和 邮件 。 开 发 程序 ， 通 过 获取 收 件 箱 和 /或 其 他 重要 文件 夹 ， 

的 内 容 备 份 邮件 ， 将 其 在 磁盘 上 以 普通 的 “mbox” 格 式 ( 或 近似 该 格式 ) 进行 
保存 。 
Outlook 日 历 。 编 写 一 个 简单 的 脚本 ， 创 建新 的 Outlook 约会 。 至 少 允 许 用 户 输入 
以 下 信息 : 开始 的 日 期 和 时 间 、 约 会 名 称 或 主题 以 及 约会 的 持续 时 间 。 
Outlook 日 历 。 创 建 一 个 应 用 ， 转 储 你 的 所 有 约会 内 容 到 你 指定 的 目标 中 ， 比 如 ， 
屏幕 、 数 据 库 、Excel 等 。 选 做 题 : 为 Outlook 任务 执行 相同 的 操作 。 

多 线程 。 修 改 Excel 版 本 的 股票 行情 下 载 脚本 (estock.pyw)， 使 用 Python 多 线程 
并 发 下 载 数 据 。 选 做 题 ， 也 可 以 使 用 win32process.beginthreadex(0 通 过 Visual C++ 
线程 来 尝试 本 练习 。 

Excel 单元 格格 式 。 在 电子 表格 版 本 的 股票 行情 下 载 脚本 Cestock.pywO F, R 
们 从 图 7-7 中 可 以 看 出 股票 价格 并 不 会 默认 显示 到 小 数 点 后 两 位 ， 即 使 我 们 传 
输 的 是 结尾 含有 0 的 字符 串 。 当 Excel 将 其 转换 为 数值 时 ， 它 会 为 数值 格式 使 
a) 通过 修改 单元 格 的 NumberFormat 属性 为 0.00， 让 数值 格式 能 够 正确 显示 小 数 点 后 
两 位 。 

b) 还 看 到 “ 较 上 次 收盘 的 变动 ”一 列 除 了 小 数 点 后 位 数 丢 失 外 ， 还 缺少 了 “+ 二?” 
号 。 不过, 我 们 发 现 a) 部 分 中 对 所 有 列 进行 的 修改 只 能 解决 小 数 点 后 位 数 的 问 
题 ， 这 个 加 号 在 任何 数字 中 都 会 自动 丢弃 。 这 里 的 解决 方法 是 修改 该 列 的 单元 
格格 式 为 文本 ， 而 不 是 数值 。 可 以 通过 将 单元 格 的 NumberFormat 属性 设置 为 @ 
来 进行 修改 。 

c) 不 过 ,通过 修改 单元 格 的 数值 格式 为 文本 ,， 我们 会 失去 数值 自动 产生 的 右 对 齐 。 
作为 b) 部 分 的 附加 操作 ， 你 必须 现在 设置 单元 格 的 HorizontalAlignment 属性 为 
PC Excel 的 常量 xIRight。 在 你 完成 这 三 部 分 修改 后 ， 输 出 将 会 更 加 令 人 满意 ， 妇 
图 7-19 所 示 。 

Python 3。 示 例 7-8 所 示 为 第 一 个 Excel 示例 的 Python 3 版 本 Cexcel3.pyw), JC 
相应 的 改变 《使 用 斜体 显示 )。 给 出 一 个 解决 方案 ， 将 本 章 中 所 有 其 他 脚本 均 移 树 
到 Python 3 中 。 
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7-19 Python-to-Excel 股票 行情 脚本 改进 (estock.pyw) 
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示例 7-8 Excel 示例 的 Python 3 版 本 Cexcel3.pyw) 
运行 2to3 工具 ， 将 原始 excel .pyw 脚本 移植 到 Python 3 版 本 。 


Oo —) OD tA ROM 一 


#!/usr/bin/env python3 


from time import sleep 

from tkinter import Tk 

from tkinter.messagebox import showwarning 
import win32com.client as win32 


warn = lambda app: showwarning(app, 'Exit?') 
RANGE = Jist(range(3, 8)) 


def excel(): 
app = 'Excel' 


xl = win32.gencache.EnsureDispatch('%s.Application' % app) 
ss = xl.Workbooks .Add() 
sh = ss.ActiveSheet 


xl.Visible - True 
sleep(1) 


sh.Cells(1,1).Value = 'Python-to-%s Demo' % app 
sleep(1) 
for i in RANGE: 
sh.Cells(i,1).Value = 'Line Xd' % i 
sleep(1) 
sh.Cells(i«2,1).Value = "Th-th-th-that's all folks!" 


warn(app) 

ss.Close(False) 

xl.Application.Quit() 
if | name --' main ' 
TkO .withdraw() 
excel () 
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下 面 两 个 练习 与 示例 7-6 相关 Coutlook_edit.pyw). 

7-13 支持 Unicode。 修 改 outlook_edit.pyw 脚本 ， 使 其 能 够 完美 处 理 Unicode 和 注音 字 
符 。 换 句 话 说， 不 要 将 这 些 字符 移 除 ， 而 是 将 其 保留 ， 传 递 到 编辑 器 中 ， 并 在 编辑 
后 的 消息 中 能 够 接受 它们 ， 以 使 其 可 以 在 邮件 消息 中 进行 传输 。 

7-14 ”健壮 性 。 通 过 允许 用 户 根据 自己 的 喜好 从 命令 行 指 定编 辑 器 使 脚本 更 具 灵 活 
性 。 如 果 用 户 没有 提供 ， 则 使 用 环境 变量 的 设置 ， 作 为 最 后 的 手段 ， 使 用 硬 编 
码 的 编辑 器 进行 设 定 。 

下 面 一 组 练习 与 示例 7-7 相关 Ctxt2ppt.pyw2 

7-15 ”忽略 注释 。 修改 脚 本 使 其 支持 注释 : 如 果 文 本 文件 中 的 一 行 以 “#” 开 始 ， 则 假定 
该 行 并 不 存在 ， 然 后 移动 到 下 一 行 。 

7-16 ”改进 标题 幻灯 片 设计 。 给 出 一 个 更 好 的 方法 来 表达 标题 幻灯 片 。 使 用 首 字 母 大 写 
风格 固然 很 好 ， 不 过 对 于 一 些 特定 情况 却 并 不 希望 这 样 显示 。 例如 ,用户 创建 了 一 
个 题 为 “Intro to TCP/IP” 的 演讲 ， 如 此 使 用 则 会 包含 几 个 错误 :“to” 首 字母 大 写 ， 
“TCP/IP” 中 的 “cp” 和 “p” 变 成 小 写 后 ， 它 成 为 “Tcp/Ip”。 


>>> 'Intro to TCP/IP'.title() 

































































































































































































































































'Intro To Tcp/Ip' 


7-17 BERM. ln cB SCIES EE Afk "demo" LEX, ABA TE, start PR 
数 执行 时 会 发 生 什 么 呢 ? 这 是 一 个 bug 还 是 一 个 功能 ?我 们 可 以 用 某 种 方式 改 ; 
这 个 解决 方案 吗 ? 如 果 可 以 ， 则 编写 代码 ;， 否则， 说 明 原 因 。 

7-18 模板 规范 。 在 目前 的 脚本 中 ， 所 有 演示 文稿 都 应 用 的 是 下 面 这 个 设计 模板 : 
C:\Program Files\Microsoft Office\Templates\Presentation Designs\Stream.pot。 这 样 会 
很 无 趣 。 

a) 允许 用 户 从 该 文件 夹 或 你 的 安装 目录 下 选择 任何 其 他 模板 。 

b)》 人 允许 用 户 指定 他 自己 的 模板 (及 其 位 置 )， 可 以 在 GUI 中 添加 新 的 输入 框 ， 
或 使 用 命令 行 ， 抑 或 是 根据 环境 变量 读 取 《由 你 选择 )。 选 做 题 : 使 用 所 有 可 选 
方式 进行 模板 选择 ， 可 以 根据 优先 级 顺序 ， 也 可 以 在 用 户 界面 中 给 用 户 一 个 下 
拉 框 来 选择 a) 部 分 中 的 默认 模板 选项 。 

7-19 ” 超 链 接 。 演 讲 可 能 需要 在 纯 文本 文件 中 包含 链接 功能 。 使 这 些 链 接 在 PowerPoint 
中 可 以 激活 。 提 示 : 你 需要 设置 Hyperlink.Address 将 其 作为 URL， 当 阅读 者 单 击 
幻灯 片 中 的 链接 时 可 以 启动 浏览 器 阅读 (参见 ActionSettings 中 的 ppMouseClick)。 

选 做 题 ， 当 链接 在 该 行 中 不 是 唯一 的 文本 时 ， 只 对 URL 文本 支持 超 链接 ， 也 就 是 
说 ， 只 对 URL 部 分 激活 链接 ， 而 不 会 对 该 行 的 其 他 文本 激活 。 

7-20 文本 格式 化 。 通 过 在 源 文 本 文件 中 支持 一 些 轻 量 级 标记 格式 ， 为 演示 文稿 内 容 中 
的 文本 增加 加 粗 、 和 斜体 、 等 宽 字 体 〈 如 Courier) 等 效果 。 强 烈 推荐 reST 





























































































































































































































































































































7-21 


7-22 


7-23 


7-24 





(reStructuredText). Markdown 或 其 他 类 似 的 工具 ， 











第 7 章 *Microsoft Office 编程 285 

















比如 在 Wiki 风格 的 格式 中 ， 使 用 














"monospaced', *bold*. italic. 等. 如果 希望 获得 更 多 例子 , 可 以 参考 http://en.wikipedia.org/ 


wiki/Lightweight markup language. 

















文本 格式 化 。 添 加 对 其 他 格式 化 服务 的 支持 ， 比 如 ， 下 划 线 、 阴 影 、 其 他 字体 、 文 
本 颜色 、 对 齐 方式 〈 左 、 中 、 右 等 )、 字 体 大 小 、 页 眉 和 页 脚 以 及 PowerPoint 支持 的 














其 他 格式 。 








图 像 。 我 们 需要 为 应 用 添加 的 一 个 重要 功能 是 在 约 灯 片 中 显示 图 像 。 为 了 把 问题 

















简化 , 只 需要 你 支持 包含 标题 和 单一 图 像 (需要 1 
居中 显示 ) 的 幻灯 片 。 你 需要 指定 一 个 定制 化 的 


























则 整 在 演示 文稿 幻灯 片 中 的 大 小 并 























语法 , 使 用 户 可 以 艇 入 图 像 的 文件 




















名 ， 比 如 ,“:IMG:C:/py/talk/images/cover.png”。 提示 : 到 目前 为 止 ,我们 只 使 用 























ppLayoutTitle 和 ppLayoutText 两 种 幻灯 片 布 
ppLayoutTitleOnly。 使 用 Shapes.AddPictureO 插 入 图 








和 PageSetup.SlideWidth 提供 的 数据 点 以 及 图 像 的 Height 和 Width 属性 ， 使 用 








ScaleHeight0 和 ScaleWidthO 调 整 图 像 的 大 小 。 
































局 ， 在 本 练习 中 ， 推 荐 使 用 
Hr» 然后 根据 PageSetup.SlideHeight 























不 同 布局 。 对 练习 7-22 的 解决 方案 进行 进一步 的 扩展 ， 使 你 的 脚本 支持 含有 多 





























j 其 他 布局 风格 。 





张 图 像 的 幻灯 片 以 及 同时 含有 图 像 和 项 目 符号 文本 的 幻灯 片 。 这 意味 着 你 需要 使 
































嵌入 视频 你 可 以 添加 的 男 一 项 先进 功能 是 在 演示 文稿 中 幅 入 YouTube 视频 剪辑 (或 









































ppLayoutTitleOnly 布局 。 此 外 ， 你 还 需要 使 用 
*ShockwaveFlash.ShockwaveFlash.10 " V Pr [i 


























其 他 Adobe Flash 应 用 )。 与 练习 7-23 类 似 ， 你 需要 自己 定义 用 于 文 持 该 功能 的 语法 ， 
比 如“ :VID:http://youtube.com/v/TjS5UmHSTdfl ”。 





















































提示 : 这 里 再 次 推荐 使 用 
Shapes.AddOLDObject(), ， 并 选择 














JAY Flash 播放 器 的 其 他 版 本 。 


CHAPTER 





第 8 章 扩展 Python 


C 语言 效率 很 高 。 但 这 种 效率 的 代价 是 需要 用 户 亲 自 进行 许多 低级 资源 管理 工作 。 由 于 
现在 的 机 器 性 能 非常 强大 ， 这 种 亲历 亲 为 是 得 不 偿 失 的 。 如 果 能 使 用 一 种 在 机 器 执行 效率 较 
低 而 用 户 开 发 效率 很 高 的 语言 ， 则 是 非常 明智 的 。Python 就 是 这 样 的 一 种 语言 。 

Eric Raymond，1996 年 10 月 





本 章 内 容 : 

。 简介 和 动机 

。 编写 Python 扩展 ; 
。 相关 主题 。 
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本 章 将 介绍 如 何 编写 扩展 代码 ， 并 将 其 功能 集成 到 Python 编程 环境 中 。 首 先 介绍 这 样 做 的 
动机 ， 接 着 逐步 介绍 如 何 编写 扩展 。 需 要 指出 的 是 ， 虽 然 Python 扩展 主要 用 C 语言 编写 ， 且 出 
于 通用 性 的 考虑 ， 本 节 的 所 有 示例 代码 都 是 纯 C 语言 代码 。 因 为 C++ 是 C 语言 的 超 集 ， 所 以 读 
者 也 可 以 使 用 C++。 如 果 读 者 使 用 Microsoft Visual Studio 构建 扩展 ， 需 要 用 到 Visual C++. 


8.1 简介 和 动机 


































































































































































































本 章 第 一 节 将 介绍 什么 是 Python 扩展 ， 并 尝试 说 明 什 么 情况 下 需要 (或 不 需要 ) 考虑 创 
建 一 个 扩展 。 


8.1.1 Python 扩展 简介 


一 般 来 说 ,任何 可 以 集成 或 导入 男 一 个 Python 脚本 的 代码 都 是 一 个 扩展 。 这 些 新 代码 可 
以 使 用 纯 Python 编写 ， 也 可 以 使 用 像 C 和 C++ 这 样 的 编译 语言 编写 〈 在 Jython 中 用 Java 编 
写 扩 展 ， 在 IronPython 中 用 C# 或 VisualBasic.NET 编写 扩展 )。 

























































































核心 提示 : 在 不 同 的 平台 上 分 别 安装 客户 端 和 服务 器 来 运行 网 络 应 用 程序 

这 里 需要 提醒 一 下 ， 一 般 来 说 ， 即 使 开发 环境 中 使 用 了 自行 编译 的 Python 解释 器 ， 
Python 扩展 也 是 通用 的 。 手动 编 译 和 获取 二 进 制 包 之 间 存 在 着 微妙 的 关系 。 尽管 编 译 比 直 
接 下 载 并 安装 二 进 制 包 要 复杂 一 些 , 但 是 前 者 可 以 灵活 地 定制 所 使 用 的 Python 版 本 。 d 
需要 创建 扩展 ， 就 应 该 在 与 扩展 最 终 执行 环境 相似 的 环境 中 进行 开发 。 

本 章 的 示例 都 是 在 基于 UNIX 的 系统 上 构建 的 (这 些 系统 通常 自 带 编译 器 )， 但 这 里 假定 
读者 有 可 用 的 CCH (或 Java) 编译 器 ， 以 及 针对 CICH (或 Java). 的 Python 开发 环境 。 这 
两 者 的 唯一 区 别 仅仅 是 编译 方法 。 而 扩展 中 的 实际 代码 可 通用 于 任何 平台 上 的 Python 环境 中 。 

如 果 是 在 Windows 平台 上 开发 ， 需 要 用 到 Visual C++ 开发 环境 。Python 发 行 包 中 自 
带 了 7.1 版 的 项 目 文件 ， 但 也 可 以 使 用 老 版 本 的 VC++。 

关于 构建 Python 扩展 的 更 多 信息 请 查看 下 面 的 网 址 。 

e 针对 PC 上 的 C++: http://docs.python.org/extending/windows 

e Java/Jython: http://wiki.python.org/jython 

e IronPython http://ironpython.codeplex.com 

警告 : 尽管 在 相同 架构 下 的 不 同 计算 机 之 间 移 动 二 进 制 扩展 一 般 情 况 下 不 会 出 现 问 
题 ， 但 是 有 时 编译 器 或 CPU 之 间 的 细微 差别 可 能 导致 代码 不 能 正常 工作 。 









































Python 中 一 个 非常 好 的 特性 是 , 无 论 是 扩展 还 是 普通 Python 模块 , 解释 器 与 其 交互 方式 
完全 相同 。 这 样 设计 的 目的 是 对 导入 的 模块 进行 抽象 ， 隐 藏 扩展 中 底层 代码 的 实现 细节 。 除 
非 模块 使 用 者 搜索 相应 的 模块 文件 ， 否 则 他 就 不 会 知道 茶 个 模块 是 使 用 Python 编写 , 还 是 使 
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编译 语言 编写 的 。 
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8.1.2 ”什么 情况 下 需要 扩展 Python 


简要 纵 观 软件 工程 的 历史 ， 编 程 语言 过 去 一 直 都 根据 原始 定义 来 使 用 。 
新 的 功能 。 然 而 ， 在 现今 的 编程 环境 中 ， 可 定制 性 编程 是 很 吸引 
一 批 这 样 














功能 ， 就 无 法 向 已 有 的 语言 
E， 它 可 以 促进 代码 本 





AGORA 











添 力 
]. Tcl 和 Python 就 是 第 
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其 语言 本 身 。 那 么 为 什么 需 














改善 瓶颈 性 能 ; 
来 比 编译 语言 


Ela 

















需要 Python 没有 的 额外 功能 : 
提供 一 些 的 新 功能 
新 的 数据 类 型 或 在 已 有 
众所周知 ， 由 
言 慢 。 一 般 来 说 ， 将 一 段 代 码 移 到 扩展 中 可 
于 ， 如 果 转 移 到 扩展 中 ， 有 时 代价 会 过 高 。 
从 性 价 比 的 角度 来 看 ，4 
这 些 瓶 颈 处 的 代码 移 到 
也 不 会 花费 太 多 的 资源 。 
隐藏 专 有 代码 : 创建 扩展 的 另 一 个 习 
言 都 没有 关注 源码 的 私 
各 代码 从 Python 中 转 到 编译 型 
基文 件 。 编 译 过 的 文件 相对 来 说 不 易 进行 逆向 了 














只 能 使 用 语言 定义 的 











可 扩展 的 语言 ， 这 些 语言 能 够 扩展 








EE ZA 




















要 扩展 像 Python 这 相 





Wier 

















TA 
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Játi Python 或 编译 后 的 
NBI 








Go 
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E EE JR 


me 
TK | 
LL 


H 
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TS 
tat 








很 完善 的 语言 
扩展 Python 的 原 
扩展 都 可 以 做 到 这 一 点 ， 不 过 像 创建 
fA Python， 就 必须 使 月 
于 解释 型 语言 的 代码 在 运行 时 即时 转换 ， 因 


E 对 代码 进行 一 些 简 单 的 性 
扩展 中 是 个 更 聪明 的 方式 。 


是 脚本 语言 的 缺陷 。 所 有 这 样 
因为 这 些 语 言 的 源码 本 身 就 是 可 执行 程序 。 
可 以 隐藏 这 些 专 有 代码 ， 


5? 有 下 面 几 点 充分 的 理由 


因 之 一 是 需要 该 语言 核心 部 分 没 




















有 








上 编译 后 的 模块 。 




















此 执行 起 
但 问题 在 








以 提升 总 体 性 能 。 


4M 


分 析 ， 找 出 瓶颈 所 在 ， 然 后 将 
样 既 能 更 快 地 获得 效率 提升 ， 


H 
Li 

















能 
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JAE 























因为 后 者 提供 的 是 二 











在 涉及 特殊 算法 、 





另 一 个 保证 代码 私有 的 方式 
和 将 代码 迁移 到 扩展 这 两 种 方法 之 间 ， 这 是 比较 好 的 折 





将 源码 隐藏 起 来 了 。 





CFE, AFEN 
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加 密 或 软件 安 
Hj 


























8.1.3 ”什么 情况 下 不 应 该 扩展 Python 




















FER IES 





Mi 


H3 








需要 








如 何 编写 扩展 之 并 
诚 ， 和 否则 读者 会 认为 作者 
g 些 优点 ， 但 也 有 一 些 缺 点 。 
必须 编写 CC++ 代 码 。 
LE 解 如 何在 Python 和 C/C++ 之 间 传 递 数 据 。 





























需要 手动 管理 引 有 








B. 








还 有 一 些 封装 














[有 具 可 以 完成 相同 的 事情 ， 

















户 又 无 须 手 动 纺 


性 时 这 ， 这 就 显得 十 
是 只 提供 预 编译 的 .pyc 文件 。 








M 














WY 
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1， 还 要 了 解 什么 情况 下 不 应 该 编写 扩展 。 这 一 节 相 当 于 一 
直 在 为 扩展 Python 做 虚假 宣传 。 是 的 , 编写 扩展 有 前 面 提 到 














这 些 工具 可 以 生成 高 效 的 C/C++ 代码 ， 但 








写 任何 C/C++ 代码 就 可 以 使 月 














些 工具 


上 











不 要 说 我 没 提 醒 过 你 ! PI? 








KBE seses 





这 些 代码 。 本 章 末尾 将 介绍 其 中 一 


8.2 ”编写 Python 扩展 


为 Python 编写 扩展 主要 涉及 三 个 步 又 。 
1. 创建 应 用 代码 。 

2. 根据 样板 编写 封装 代码 。 

3. 编译 并 测试 。 

本 节 将 深入 了 解 这 三 个 步 又 。 


8.2.1 创建 应 用 代码 
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首先 ， 所 有 需要 成 为 扩展 的 代码 应 该 组 成 一 个 独立 的 “ 库 ”。 换 句 话 说， 要 明白 这 些 代 码 
将 作为 一 个 Python 模块 存在 。 因 此 在 设计 函数 和 对 象 时 需要 考虑 Python 代码 与 C 代码 之 间 











的 交互 和 数据 共享 ， 反 之 亦 然 。 
下 一 步 ， 创 建 测试 代码 来 保证 代码 的 正确 性 。 


























甚至 可 以 使 用 Python 风格 的 做 法 ， 即 将 


对、 链接 并 加 载 到 一 个 可 执行 程序 中 《而 不 








main) RZE C. 中 作为 测试 程序 。 如 果 代码 编 记 
































是 共享 库 文件 ), 调用 这 样 的 可 执行 程序 能 对 软件 库 进行 回归 测试 。 下 面 将 要 介绍 的 扩展 示例 











都 使 用 这 种 方法 。 
测试 用 例 包含 两 个 需要 引入 Python 环境 中 的 



































C 函数 。 一 个 是 递归 阶乘 函数 fac()。 男 一 




















个 是 简单 的 字符 串 逆序 函数 reverse0， 主 要 用 于 < 














站 
FER Art] 








RJ 
计 并 调试 这 些 C 代码 ， 以 防 将 问题 带 入 Python. 
第 1 版 的 文件 名 为 Extestl.c， 参 见 示例 8-1. 











示例 8-1 纯 C 版 本 的 库 CExtestl.c) 




















的 情况 下 ， 道 序 排列 字符 串 中 的 字符 。 由 于 这 些 函 数 需 要 用 到 指针 ， 因 此 需要 和 仔细 设 


“ 原 地 ”逆序 字符 串 ， 即 在 不 额外 分 配 字符 









































下 面 显示 的 是 c 函数 库 ， 需 要 对 其 进行 封装 以 便 在 Python 解释 器 中 使 用 。main () 是 测试 函数 。 





#include <stdio.h> 











1 

2 #include <stdlib.h> 

3 #include <string.h> 

4 

5 int fac(int n) 

6 

7 if (n < 2) return(1); /* 0! == 1! == 1 */ 

8 return (n)*fac(n-1); /* n! == n*(n-1)! */ 

9 

10 

ll char *reverse(char *s) 

12 { 

13 register char t, /* tmp */ 
14 *pe=s, /* fwd */ 
15 *q = (s + (strlen(s)-1)); /* bwd */ 
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16 

17 while (p < q) /* if p<q */ 

18 { /* swap & mv ptrs */ 
19 t = *p; 

20 *p++ = *q; 

21 *q-- = t; 

22 

23 return s; 

24 } 

25 

26 int main() 

27 { 

28 char s[BUFSIZ]; 

29 printf("4! == %d\n", fac(4)); 

30 printf("8! == %d\n", fac(8)); 

31 printf("12! == %d\n", fac(12)); 

32 strcpy(s, "abcdef"); 

33 printf("reversing 'abcdef', we get '%s'\n", \ 
34 reverse(s)); 

35 strcpy(s, "madam"); 

36 printf("reversing 'madam', we get '%s'\n", \ 
37 reverse(s)); 

38 return 0; 

39 } 

















这 段 代码 含有 两 个 函数 : fac0 和 reverse0， 用 来 实现 前 面 所 说 的 功能 。fac0 接 受 一 个 整 














型 参数 ， 然 后 递归 计算 结果 ， 最 后 从 递归 的 最 外 层 返 回 给 调用 者 。 


NS 














最 后 一 部 分 是 必要 的 main0 函 数 。 它 用 来 作为 测试 函数 ， 将 不 同 的 参数 传 入 fac Fl 


reverse()。 通 过 这 个 函数 可 以 判断 前 两 个 函数 是 否 能 正常 工作 。 














现在 编译 这 段 代码 。 许 多 类 UNIX 系统 都 含有 gee 编译 器 ， 在 这 些 系统 上 可 以 使 用 下 面 











的 命令 。 
$ gcc Extestl.c -o Extest 
$ 
运行 代码 ， 可 以 执行 下 面 的 命令 并 获得 输出 。 
$ Extest 
41 == 24 
8! == 40320 
12! == 479001600 


reversing 'abcdef', we get 'fedcba' 
reversing 'madam', we get 'madam' 


$ 
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再 次 强 



































调 ， 必 须 尽 可 能 先 完善 扩展 程序 的 代码 。 把 针对 Python 程序 的 调试 与 针对 扩 


展 库 本 身 bug 的 调试 混在 一 起 是 一 件 非常 痛苦 的 事情 。 换 句 话 说 , 将 调试 核心 代码 与 调试 




















Python 程序 分 开 。 与 Python 接口 的 代码 写 得 越 完 善 ， 就 越 容易 把 它 旨 
工作 。 








pis 
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Python 并 正确 
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这 里 每 个 函数 都 接受 一 个 参数 ， 也 只 返回 一 个 参数 。 这 简单 明了 ， 因 此 集成 进 Python 应 
该 不 难 。 注 意 ， 到 目前 为 止 ， 还 没 涉及 任何 与 Python 相关 的 内 容 。 仅 仅 创建 了 一 个 标准 的 C 






































或 C++ 应 用 而 已 。 














8.2.2 ”根据 样板 编写 封装 代码 


完整 地 实现 一 个 扩展 都 围绕 “封装 ”相关 的 概念 ， 读 者 应 该 熟悉 这 些 概念 ， 如 组 合 类 、 























> ms 


























饰 函 数 、 类 委托 等 。 开 发 者 需要 精心 设计 扩展 代码 ， 无 颖 连接 Python 和 相应 的 扩展 实现 语 
这 种 接口 代码 通常 称 为 样板 〈boilerplate) 代码 ， 因 为 如 果 需 要 与 Python 解释 器 交互 ， 
到 一 些 格式 固定 的 代码 














B, 


样板 代码 主要 含有 四 部 分 。 








1. & Python 头 文件 。 


2. 为 每 一 个 模块 函数 
3. 为 每 一 个 模块 函数 
4. 添加 模块 初始 化 函 








添加 形 如 PyObject*Module. funcOTff] S 38 HB. 
添加 一 个 PyMethodDef ModuleMethods[] 数 组 / 表 。 
数 void initModule(). 


包含 Python 头 文件 


首先 要 做 的 是 找到 Python 包含 文件 ， 并 确保 编译 器 可 以 访问 这 个 文件 的 目录 。 在 大 多 数 
类 UNIX 系统 上 ,Python 包含 文件 一 般 位 于 /usr/local/include/python2.x 或 /usr/include/python2.x 
中 ， 其 中 2.x 是 Python 的 版 本 。 如 果 通 过 编译 安装 的 Python 解释 器 ， 应 该 不 会 有 问题 ， 因 为 

















系统 知道 安装 文件 的 位 置 。 















































将 Python.h 这 个 头 文件 包含 在 源码 中 ， 如 下 所 示 。 
#include "Python .hn 
这 部 分 很 简单 。 下 面 需要 添加 样板 软件 中 的 其 他 部 分 。 
为 函数 编写 形 如 P yObject* Module_func() 的 封装 函数 


这 一 部 分 有 点 难度 。 对 于 每 个 需要 在 Python 环境 中 访问 的 函数 ， 需 要 创建 一 个 以 static 
PyObject* 标 识 ， 以 模块 名 开头 ， 紧 接着 是 下 划 线 和 函数 名 本 身 的 函数 。 

例如 ， 若 要 让 fac RZ LATE Python 中 导入 ， 并 将 Extest 作为 最 终 的 模块 名 称 ， 需 要 创 
建 一 个 名 为 Extest_facO 的 封装 函数 。 在 用 到 这 个 函数 的 Python 脚本 中 ,可 以 使 用 import Extest 
和 ExtestfacO 的 形式 在 任意 地 方 调用 fac0 函 数 〈 或 者 先 from Extest import fac， 然 后 直接 












































调用 fac()). 




















































































































封装 函数 的 任务 是 将 Python 中 的 值 转 成 成 C 形式 ， 接 着 调用 相应 的 函数 。 当 C 函数 执 


行 完毕 时 ， 需 要 返回 Python 的 环境 中 。 封 装 函 数 需要 将 返回 值 转换 成 Pytho 形式 ， 并 进行 真 






































正 的 返回 ， 传 回 所 有 需要 的 值 。 
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在 facO 的 示例 中 ， 当 客户 程序 调用 
Python 整数 ， 将 其 转换 成 C 整数 ， 接 着 调用 
将 这 个 返回 值 转换 成 Python 整数 ,返回 给 调 



































通用 应 用 主题 




































































ExtestfacO 时 ， 会 调用 封装 函数 。 
C 函数 fac0， 获 取 返 回 结果 ， 同 样 是 一 个 整数 。 


j 者 〈 记 住 ， 编 写 的 封装 函数 就 是 def fac(n) 声 明 








这 里 会 接受 一 个 





























的 代理 函数 。 当 这 个 封装 函数 返回 时 ， 就 相当 于 Python facO 函 数 执行 完毕 了 )。 














现 
PyArg_Parse 


在 读者 可 


0 函数 ， 从 C 返 





些 格式 字符 
返回 0。 





Py_BuildvalueO 的 了 





回 Python 时 ， 调 用 
这 些 PyArg Parse*() PK AG C 中 的 sscanf() 








能 会 问 , 怎样 才能 完成 这 种 转换 ? 答案 是 在 从 Python 到 C it, W) 
Py BuildValue() ri žit. 
函数 类 似 。 其 接受 





























j 一 系列 的 


























个 字 节 流 ， 然 后 根据 











进行 解析 ,将 结果 放 入 到 相应 指针 所 指 的 变量 中 。 若 解析 成 功 就 返回 1; 否则 








字符 串 指定 的 格式 转换 为 一 个 Python 对 象 。 
表 8-1 总 结 了 这 些 函 数 。 


表 8-1 在 Python 和 C/C++ 之 间 转 换 数据 


ER 





数 


























[ 作 方式 类 似 sprintf()， 接 受 一 个 格式 字符 串 ， 并 将 所 有 参数 按照 格式 











说 明 





从 了 Python 到 C 





int PyArg ParseTuple() 





将 位 于 元 组 中 的 一 系列 参数 从 Python 转化 为 C 





int PyArg ParseTupleAndKeywords() 


与 上 一 个 类 似 ， 但 还 会 解析 关键 字 参 数 





从 C 到 了 Python 





PyObject*Py Bu 


ild Value() 














TE C 数据 值 转化 为 Python 返回 对 象 , 要 么 是 单个 对 象 , 要 么 是 一 个 含有 多 个 对 象 的 元 组 



























































在 Python 和 C 之 间 使 用 一 系列 的 转换 编码 来 转换 数据 对 象 。 转 换 编 码 见 表 8-2。 
表 8-2 Python $n C/C++ 之 间 的 ' 转 换 编 码 ” 
格式 编码 Python 数据 类 型 C/C Hirt de 
S. si str/unicode, len() Char*(, int) 
Zy zi str/unicode/None,len() char */NULL(, int) 
u, uf unicode, len() (Py UNICODE", int) 
i in int 
b ini char 
h ini short 
1 in long 
k int BK long unsigned long 
I int BK long unsigned int 
B in unsigned char 
H ini unsigned short 
L long long long 
K long unsigned long long 
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(BER ) 
格式 编码 Python 数据 类 型 C/C++ 数据 类 型 
c str char 
d float double 
f float float 
D complex Py Complex* 
o (任意 类 型 ) PyObject* 
S str PyStringObject 
N? (任意 类 型 ) ByObicet 
O& (任意 类 型 ) (任意 类 型 ) 











(D Python 2 和 Python 3 之 间 的 格式 编码 基本 相同 。 
Q 与 “0” 类 似 ， 但 不 递增 对 象 的 引用 计数 。 


这 些 转换 编码 用 在 格式 字符 串 中 , 用 于 指出 对 应 的 值 在 两 种 语言 中 应 该 如 何 转换 。 注意 ， 
其 转换 类 型 不 可 用 于 Java 中 , Java 中 所 有 数据 类 型 都 是 类 。 可 以 阅读 Jython 文档 来 了 解 Java 
类 型 和 Python 对 象 之 间 的 对 应 关系 。 对 于 C# 和 VB.NET 同样 如 此 。 

这 里 列 出 完整 的 Extest_facO 封 装 函 数 。 


static PyObject * 
Extest fac(PyObject *self, PyObject *args) { 























































































































int res; // parse result 
int num; // arg for fac() 
PyObject* retval; // return value 


res = PyArg ParseTuple(args, "i", &num); 
if (!res) ( // TypeError 
return NULL; 
} 
res = fac(num); 
retval = (PyObject*) Py BuildValue("i", res); 
return retval; 


} 


封装 函数 中 首先 解析 Python 中 传递 进来 的 参数 。 这 里 应 该 是 一 个 普通 的 整 型 变量 ， 所 以 使 
“i” 这 个 转换 编码 来 告知 转换 函数 进行 相应 的 操作 。 如 果 参 数 的 值 确实 是 一 个 整 型 变量 ， 则 
将 其 存 入 num 变量 中 。 和 否则 ,PyArg_ParseTuple0 会 返回 NULL， 在 这 种 情况 下 封装 函数 也 会 返 
NULL。 此 时 , 它 会 生成 TypeError 异常 来 通知 客户 端 用 户 ， 所 需 的 参数 应 该 是 一 个 整 型 变量 。 

接着 使 用 num 作为 参数 调用 facO) 函 数 ， 将 结果 放 在 res 中 ， 这 里 重用 了 res 变量 。 现 在 
构建 返回 对 象 ， 即 一 个 Python 整数 ， 依 然 通过 “i” 这 个 转换 编码 。Py_BuildValue0 创 建 一 个 
整 型 Python 对 象 ， 并 将 其 返回 。 这 就 是 封装 函数 的 所 有 内 容 。 
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实际 上 ， 当 封装 函数 写 多 了 后 ， 就 会 试图 简化 代码 来 避免 使 用 中 间 变 量 。 尽 量 让 代码 保 
持 可 读 性 。 这 里 将 Extest_fac0O 函 数 精简 成 下 面 这 个 更 短 的 版 本 ， 它 只 用 了 一 个 变量 num. 


static PyObject * 





























Tad 












































Extest fac(PyObject *self, PyObject *args) 
int num; 
if (!PyArg ParseTuple(args, "i", &num)) 
return NULL; 
return (PyObject*)Py BuildValue("i", fac(num)); 
} 


AB reverse) ASKIN? 由 于 已 经 知道 如 何 返回 单个 值 ， 这 里 将 对 reverseO 的 需求 稍微 修 
改 下 ,返回 两 个 值 。 将 以 元 组 的 形式 返回 一 对 字符 串 ， 第 一 个 元 素 是 传递 进来 的 原始 字符 串 ， 
第 二 个 是 新 逆序 的 字符 串 。 

为 了 更 灵活 地 调用 函数 ， 这 里 将 该 函数 合 名 为 Extest.doppel()， 来 表示 其 行为 与 reverse() 
有 所 不 同 。 将 C 代码 封装 进 Extest_doppel0 函 数 中 ， 如 下 所 示 。 

static PyObject * 


Extest doppel(PyObject *self, PyObject *args) { 
char *orig str; 














LH 
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if (!PyArg ParseTuple(args, "s", &orig str)) return NULL; 
return (PyObject*)Py BuildValue("ss", orig str, \ 
reverse (strdup (orig str))); 


} 


在 Extest_fac0 中 ， 接 受 一 个 字符 串 值 作为 输入 ， 将 其 存 入 orig str 中 。 注 意 ， 选 择 使 用 
“s” 这 个 转换 编码 。 接 着 调用 strdup0 来 创建 该 字符 串 的 副本 。( 因 为 需要 返回 原始 字符 串 ， 
同时 需要 一 个 字符 串 来 逆序 ， 所 以 最 好 的 选择 是 直接 复制 原始 字符 串 。) strdup( 8 ER [8 
一 个 副本 ， 该 副本 立即 传递 给 reverse0。 这 样 就 获得 逆序 后 的 字符 串 。 

如 你 所 见 ，Py_BuildvalueO 使 用 转换 字符 串 “ss” 将 这 两 个 字符 串 放 到 了 一 起 。 这 里 创建 
了 含有 原始 字符 串 和 逆序 字符 串 的 元 组 。 都 结束 了 吗 ? 还 没有 。 

这 里 遇 到 了 C 语言 中 一 个 危险 的 东西 : 内 存 泄 露 〈 分 配 了 内 存 但 没有 释放 )。 内 存 泄露 
就 相当 于 从 图 书馆 借 书 ， 但 是 没有 归还 。 在 获取 了 某 些 资源 后 ， 当 不 再 需要 时 ， 一 定 要 释放 
这 些 资 源 。 我 们 怎么 能 在 代码 中 犯 这 样 的 错误 呢 (虽然 看 上 去 很 无 率 )〉 ? 

当 Py Build Value 4 [82H £r $]— A Python 对 象 并 返回 时 ， 它 会 创建 传 入 数据 的 副本 。 在 
这 里 的 例子 中 ， 创 建 了 一 对 字符 串 。 问 题 在 于 分 配 了 第 二 个 字符 串 的 内 存 ， 但 在 结束 时 没有 
释放 这 上段 内 存 ， 导 致 了 内 存 泄露 。 而 实际 想 做 的 是 构建 返回 值 ， 接 着 释放 在 封装 函数 中 分 配 
的 内 存 。 为 此 ， 必 须 像 下 面 这 样 修改 代码 。 


static PyObject * 
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Extest doppel(PyObject *self, PyObject *args) { 
char *orig str; // original string 
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char *dupe str; // reversed string 
PyObject* retval; 


if (!PyArg ParseTuple(args, "s", &orig str)) return NULL; 
retval = (PyObject*)Py BuildValue("ss", orig str, \ 
dupe str-reverse(strdup(orig str))); 
free(dupe str); 
return retval; 


} 


这 里 引入 了 dupe str 变量 来 指向 新 分 配 的 字符 串 并 构建 返 
分 配 的 内 容 ， 并 最 终 返 回 给 调用 者 。 现 在 才 算 真正 完成 。 


为 模块 编写 PyMethodDef ModuleMethods[]#28 


既然 两 个 封装 函数 都 已 完成 ， 下 一 步 就 需要 在 某 个 地 方 将 函数 列 出 来 ， 以 便 让 Python f 
释 器 知道 如 何 导 入 并 访问 这 些 函 数 。 这 就 是 ModuleMethods[] 数 组 的 任务 。 
这 个 数组 由 多 个 子 数组 组 成 ， 每 个 子 数 组 含有 一 个 函数 的 相关 信息 ， 母 数组 以 NULL 数 
组 结尾 ， 表 示 在 此 结束 。 对 Extest 模块 来 说 ， 创 建 下面 这 个 ExtestMethods[] 数 组 。 
static PyMethodDef 
ExtestMethods[] = { 
( "fac", Extest_fac, METH VARARGS }, 


( "doppel", Extest doppel, METH VARARGS ], 
{ NULL, NULL }, 
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对 象 。 接 着 使 用 free0 来 释放 































































































}; 

首先 给 出 了 在 Python 中 访问 所 用 到 的 名 称 ， 接 着 是 对 应 的 封装 函数 。 常 量 

METH, VARARGS 表示 参数 以 元 组 的 形式 给 定 。 如 果 使 用 PyArg ParseTupleAndKeywords() 

来 处 理 包含 关键 字 的 参数 ， 需 要 将 这 个 标记 与 METH_KEYWORDS 常量 进行 逻辑 OR 操作 。 
最 后 ， 使 用 一 对 NULL 来 表示 结束 函数 信息 列表 ， 还 表示 只 含有 两 个 函数 。 


添加 模块 初始 化 函数 void initModule() 

最 后 一 部 分 是 模块 初始 化 函数 。 当 解释 器 导入 模块 时 会 调用 这 段 代 码 。 这 段 代 码 中 只 调 
] J Py_InitModule0) 函 数 ， 其 第 一 个 参数 是 模块 名 称 ， 第 二 个 是 ModuleMethods[] 数 组 ， 这 样 
解释 器 就 可 以 访问 模块 函数 。 对 于 Extest 模块 ， 其 initExtest0) 过 程 如 下 所 示 。 


void initExtest() { 
Py InitModule("Extest", ExtestMethods); 














































































































































































































} 


现在 已 经 完成 了 所 有 封装 任务 。 将 Extestl.c 中 原先 的 代码 与 所 有 这 些 代码 合并 到 一 个 新 
文件 Extest2.c 中 。 至 此 ， 就 完成 了 示例 中 的 所 有 开发 步骤 。 
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另 一 种 创建 扩展 的 方式 是 先 编写 封装 代码 ， 使 月 


















































之 间接 口 的 正确 性 ， 并 使 用 Python 来 测试 相应 的 C 代码 。 


8.2.3 编译 

















HAAR 〈stub ) 函数 、 测 试 函 数 或 假 函数 ， 
在 开发 的 过 程 中 将 其 替换 成 具有 完整 功能 的 实现 代码 。 通 过 这 种 方式 ， 可 以 保证 Python 和 C 











现在 进入 了 编译 阶段 。 为 了 构建 新 的 Python 封装 扩展 ， 需 要 将 其 与 Python 库 一 同 编译 。 





























(从 2.0 版 开始 ) 扩展 的 编译 步 又 已 经 跨 3 




















distutils 包 来 构建 、 安 装 和 发 布 模块 、 











F 台 标准 化 了 ， 简 化 了 扩展 编写 者 的 工作 。 现 在 使 用 









































扩展 和 软件 包 。 从 Python 2.0 开始 ， 这 种 方式 替换 了 老 




















版 本 1.x 中 使 用 makefile 构建 扩展 的 方式 。 使 用 distutilgs， 可 以 通过 下 面 这 些 简单 的 步骤 构建 








扩展 。 





创建 setup.py。 





. 在 Python 中 导入 模块 。 
.测试 函数 。 


创建 setup.py 


JU Ne 















































第 一 步 就 是 创建 setup.py 文件 。 大 部 分 编译 工作 
有 代码 都 只 是 预备 步骤 。 为 了 构建 扩展 模块 ,需要 为 每 个 扩展 创建 




















.运行 setup.py 来 编译 并 链接 代码 。 























这 里 只 有 一 个 扩展 ， 所 以 只 需 一 个 Extension 实例 。 





Extension('Extest', sources- 





























的 点 分 割 表示 方式 。 由 于 这 里 是 个 独立 的 包 ， 因 

















['Extest2.c']) 






































文件 的 列表 。 同 样 ， 只 有 一 个 文件 Extest2.c。 
现在 就 可 以 调用 setup()。 其 接受 一 个 命名 参数 来 表示 构建 结果 的 名 称 ， 以 及 一 个 列表 来 







































































H setup0 函 数 完成 。 在 该 函数 之 前 的 所 
一 个 Extension 实例 。 因 为 








第 一 个 参数 是 扩展 的 完整 名 称 ， 以 及 该 扩展 中 拥有 的 所 有 高 阶 包 。 该 名 称 应 该 使 用 完整 
此 名 称 为 “Extest”。sources 参数 是 所 有 源码 








表示 需要 构建 的 内 容 。 由 于 这 里 是 创建 一 个 扩展 ， 因 此 设置 一 个 含有 扩展 模块 的 列表 ， 传 递 

















给 ext_modules。 语 法 如 下 所 示 。 


setup('Extest', ext modules- 

















由 于 这 里 只 有 一 个 模块 ， 因 此 将 扩展 模块 的 实例 化 代码 集成 到 setup0 的 调用 











aes) 








步骤 中 将 模块 名 称 设 置 为 "常量 ”MOD。 


MOD = 'Extest' 
setup(name-MOD, ext modules- 
Extension(MOD, sources=[ 


setup() 中 含有 许多 其 他 选项 ， 这 旦 








[ 
'Extest2.c'])]) 

















， 在 预备 














就 不 一 一 列举 了 。 读 者 可 以 在 


言 方 的 Python 文档 中 找 
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到 关于 创建 setup.py 和 调用 setupO 的 更 多 信息 ， 在 本 章 末 尾 可 以 找到 这 些 链接 。 示 例 8-2 显 
示 了 示例 扩展 中 用 到 的 完整 脚本 。 

示例 8-2 ”构建 脚本 (setup.py) 

这 段 脚本 将 扩展 编译 到 builg/1ib.* 子 目录 中 。 
#!/usr/bin/env python 


























from distutils.core import setup, Extension 


MOD = 'Extest' 
setup(name-MOD, ext modules-[ 
Extension(MOD, sources=['Extest2.c'])]) 


- OD ta 4A ovrt — 


运行 setup.py 来 编译 并 链接 代码 


既然 有 了 setup.py 文件 ， 就 运行 python setup.py build 命令 构建 扩展 。 这 里 在 Mac 上 完成 
构建 (根据 操作 系统 和 Python 版 本 的 不 同 ， 对 应 的 输出 与 下 面 的 内 容 会 有 些 差别 )。 


$ python setup.py build 














running build 

running build ext 

building 'Extest' extension 

creating build 

creating build/temp.macosx-10.x-fat-2.x 

gcc -fno-strict-aliasing -Wno-long-double -no-cpp- 
precomp-mno-fused-madd -fno-common -dynamic -DNDEBUG -g 
-I/usr/include -I/usr/local/include -I/sw/include -I/ 
usr/local/include/python2.x -c Extest2.c -o build/temp.macosx-10.x- 
fat2.x/Extest2.0 

creating build/lib.macosx-10.x-fat-2.x 

gcc -g -bundle -undefined dynamic lookup -L/usr/lib -L/ 
usr/local/lib -L/sw/lib -I/usr/include -I/usr/local/ 

include -I/sw/include build/temp.macosx-10.x-fat-2.x/Extest2.0 -o 
build/lib.macosx-10.x-fat-2.x/Extest.so 


8.2.4 导入 并 测试 
最 后 一 步 是 回 到 Python 中 使 用 扩展 包 ， 就 像 这 个 扩展 就 是 用 纯 Python 编写 的 那样 。 
在 Python 中 导入 模块 


扩展 模块 会 创建 在 build/lib.* 目 录 下 ， 即 运行 setup.py 脚本 的 位 置 。 要么 切换 到 这 个 目录 
中 ， 要 么 用 下 面 的 方式 将 其 安装 到 Python 中。 


$ python setup.py install 














































































































298 第 1 部 分 通用 应 用 主题 





























如 果 安 装 该 扩展 ， 会 得 到 下 面 的 输出 。 


running install 

running build 

running build ext 

running install lib 

copying build/lib.macosx-10.x-fat-2.x/Extest.so -» 
/usr/local/lib/python2.x/site-packages 


现在 可 以 在 解释 器 中 测试 模块 了 。 


>>> import Extest 








>>> Extest.fac(5) 
120 
>>> Extest.fac(9) 
362880 
>>> Extest.doppel('abcdefgh') 
('abcdefgh', 'hgfedcba') 

>>> Extest.doppel("Madam, I'm Adam.") 








("Madam, I'm Adam.", ".madA m'I ,madaM") 
添加 测试 函数 
需要 完成 的 最 后 一 件 事 是 添加 测试 函数 。 实 际 上 ， 我 们 已 经 有 测试 函数 了 ， 就 是 那个 
main() 函 数 。 但 要 小 心 ， 在 扩展 代码 中 含有 main() 函 数 有 潜在 的 风险 ， 因 为 系统 中 应 该 只 有 
一 个 main) PAZ. 将 main0 的 名 称 改 成 testO0 并 对 其 封装 可 以 消除 这 个 风险 , 添加 Extest_test() 
并 更 新 ExtestMethods 数组 ， 如 下 所 示 。 


static PyObject * 















































Extest_test (PyObject *self, PyObject *args) { 
test(); 

return (PyObject*)Py BuildValue(""); 

} 
static PyMethodDef 
ExtestMethods[] = { 

{ "fac", Extest_fac, METH_VARARGS }, 
"doppel", Extest_doppel, METH_VARARGS }, 
"test", Extest_test, METH_VARARGS }, 
NULL, NULL }, 


"T 





























Extest_test0 模 块 函数 仅仅 运行 test0) 并 返回 一 个 空 字 符 串 , 在 Python 中 是 一 个 None 值 返 
回 给 调用 者 。 
现在 可 以 在 Python 中 进行 相同 的 测试 。 








>>> Extest.test() 


4! == 24 
8! == 40320 
123 479001600 


reversing 'abcdef', we get 'fedcba' 


reversing 'madam', we get 'madam' 


>>> 





展 Python 


示例 8-3 中 列 出 了 Extest2.c 的 最 终 版 本 ， 上 述 输 出 都 是 用 这 个 版 本 来 完成 的 。 
示例 8-3 C 函数 库 的 Python 封装 版 本 (Extest2.c) 


XO 906-1 0v Un 4 Ut. — 


=g 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 


int fac(int n) 

1 
if (n « 2) return(1); 
return (n)*fac(n-1); 


char *reverse(char *s) 
{ 
register char t, 
* 
p 
*q 


s 


^ 


while (s && (p < q)) 
1 


return s; 


int test) 


char s[BUFSIZ]; 

printf("4! == %d\n", fac(4)); 
printf("8! == %d\n", fac(8)); 
printf("12! == %d\n", fac(12)); 
strcpy(s, "abcdef"); 


printf("reversing 'abcdef', we get '%s'\n", \ 


reverse(s)); 
strcpy(s, "madam"); 


printf("reversing 'madam', we get '%s'\n", \ 


reverse(s)); 
return 0; 
#include "Python.h" 


static PyObject * 
Extest fac(PyObject *self, PyObject *args) 


(s + (strlen(s) - 1)); 
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45 { 

46 int num; 

47 if (!PyArg ParseTuple(args, "i", &num)) 

48 return NULL; 

49 return (PyObject*)Py BuildValue("i", facCnum)) ;} 
50 } 


52 static PyObject * 
53 Extest doppel(PyObject *self, PyObject *args) 


54 { 

55 char *orig str; 

56 char *dupe str; 

57 PyObject* retval; 

58 

59 if (!PyArg ParseTuple(args, "s", &orig str)) 
60 return NULL; 

61 retval = (PyObject*)Py BuildValue("ss", orig str, \ 
62 dupe_str=reverse(strdup(orig_str))); 

63 free(dupe_str); 

64 return retval; 

65 } 

66 


67 static PyObject * 
68 Extest test(PyObject *self, PyObject *args) 


69 

70 testO; 

71 return (PyObject*)Py BuildValue(""); 
72 } 

73 


74 static PyMethodDef 
75 ExtestMethods[] = 


76 (1 

77 { "fac", Extest_fac, METH_VARARGS }, 

78 { "doppel", Extest_doppel, METH_VARARGS }, 
79 { "test", Extest_test, METH_VARARGS }, 
80 { NULL, NULL }, 

81 3; 

82 

83 void initExtest() 

84 (1 

85 Py InitModule("Extest", ExtestMethods); 
86 } 








在 这 个 示例 中 , 仅 在 同一 个 文件 中 将 原始 的 C 代码 与 Python 相关 的 封装 代码 进行 了 
隔离 。 这 样 方便 阅读 ， 在 这 个 短小 的 例子 中 也 没有 什么 问题 。 但 在 实际 应 用 中 ， 源 码 文 
件 会 越 写 越 大 ,可 以 将 其 分 割 到 不 同 的 源码 文件 中 , 使 用 如 ExtestWrappers.c 这 样 好 记 的 
名 字 。 


8.2.5 引用 计数 


也 许 读 者 还 记得 Python 使 用 引用 计数 来 追踪 对 象 ， 并 释放 不 再 引用 的 对 象 。 这 是 Python 
垃圾 回收 机 制 的 一 部 分 。 当 创建 扩展 时 ， 必 须 额外 注意 如 何 处 理 Python 对 象 ， 必 须 留心 是 否 
需要 修改 此 类 对 象 的 引用 计数 。 
































下 
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一 个 对 象 有 两 种 类 型 的 引用 ， 一 种 是 拥有 引用 Cowned reference )， 对 该 对 象 的 引用 计数 递 
增 1 表示 拥有 该 对 象 的 所 有 权 。 当 从 零 创 建 一 个 Python 对 象 时 ， 就 一 定 会 含有 一 个 拥有 引用 。 
当 使 用 完 一 个 Python 对 象 后 ， 必 须 对 所 有 权 进 行 处 理 ， 要 么 递减 其 引用 计数 ， 通 过 传递 
它 转移 其 所 有 权 , 要 么 将 该 对 象 存 储 到 其 他 容器 。 如 果 没 有 处 理 引 用 计数 , 则 会 导致 内 存 泄漏 。 
对 象 还 有 一 个 借用 引用 Cborrowered reference )。 相 对 来 说 ， 这 种 方式 的 责任 就 小 一 些 。 
般 用 于 传递 对 象 的 引用 ， 但 不 对 数据 进行 任何 处 理 。 只 要 在 其 引用 计数 递减 至 零 后 不 继续 使 用 
这 个 引用 , 就 无 须 担 心 其 引用 计数 。 可 以 通过 递增 对 象 的 引用 计数 来 将 借用 引用 转 成 拥有 引用 。 
Python 提供 了 一 对 C 宏 来 改变 Python 对 象 的 引用 计数 。 如 表 8-3 所 示 。 


表 8-3 ”用 于 执行 Python 对 象 引 用 计数 的 宏 




































































































































































































































































































































































函数 ie AA 
Py INCREF(obj) 递增 对 象 obj 的 引用 计数 
Py DECREF(obj) 递减 对 象 obj 的 引用 计数 







































































在 上 面 的 Extest_testO) 函 数 中 ， 在 构建 PyObject 对 象 时 使 用 空 字符 串 来 返回 None。 但 可 
以 通过 拥有 一 个 None 对 象 来 完成 这 个 任务 。 即 递增 一 个 PyNone 的 引用 计数 并 显 式 返回 这 个 
对 象 ， 如 下 所 示 。 


static PyObject * 

Extest_test (PyObject *self, PyObject *args) { 
test(); 
Py INCREF (Py. None) ; 
return PyNone; 























} 
Py INCREF() 和 Py_ DECREFO 还 有 一 个 先 检测 对 象 是 否 为 NULL 的 版 本 ， 分 别 为 
Py_XINCREFO 和 Py_XDECREF(). 
这 里 强烈 建议 读者 阅读 相关 Python LPR FEP RARA Python 里 面 所 有 关于 引用 计 
数 的 细节 〔 详 见 附录 C 中 的 参考 文献 部 分 )。 


8.2.6 线程 和 全 局 解释 器 锁 


扩展 的 编写 者 必须 要 注意 ， 他 们 的 代码 可 能 在 多 线程 Python 环境 中 执行 。4.3.1 节 介绍 了 
Python 虚拟 机 (Python Virtual Machine, PVM) 和 全 局 解释 器 锁 (Global Interpreter Lock, GIL), 
WA J Æ PVM 中 ， 任 意 时 间 只 有 一 个 线程 在 执行 ，GIL 就 负责 阻止 其 他 线程 的 执行 。 除 此 之 
外 ， 还 指出 了 调用 外 部 函数 的 代码 ， 如 扩展 代码 ， 将 会 锁 住 GIL， 直 至 外 部 函数 返回 。 

但 也 提 到 了 一 种 折衷 方 法 ， 即 让 扩展 开发 者 释放 GIL。 例 如 ， 在 执行 系统 调用 前 就 可 以 
实现 。 这 是 通过 将 代码 和 线程 隔离 实现 的 ， 这 些 线程 使 用 了 另外 的 两 个 C Z: 
Py BEGIN ALLOW THREADS 和 Py_END_ALLOW_THREADS, 保证 了 运行 和 非 运 行 时 的 
安全 性 。 用 这 些 宏 围 起 来 的 代码 块 会 允许 其 他 线程 在 其 执行 时 同步 执行 。 



























































































































































































































































用 应 用 


AWA 
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与 引用 计数 宏 相同 ,这 
以 及 Python/C API 2453 


8.3 ”相关 主题 


AE a WEM 
最 后 简要 讨论 一 个 相关 3 


8.3.1 SWIG 


这 款 称 为 简化 的 封装 和 接口 
的 外 部 工具 ， 
有 具 可 以 将 注释 过 的 CUC++ 头 文件 生成 可 以 
可 以 从 本 章 前 面 介 绍 的 样板 代码 中 解放 出 来 。 
的 就 是 按照 SWIG 的 格式 创建 相应 的 文 从 
中 可 以 找到 关于 SWIG 的 更 多 信息 。 

e http://swig.org 
e http://en.wikipedia.org/wiki/SWIG 


8.3.2 Pyrex 

































































其 他 
wl, BUDE Python, 以 出 
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只 须 






































种 方式 虽然 可 以 使 用 C/C++ RSS X fé. E SE PRODR 
了 一 种 新 的 方式 ， 既 可 以 利 月 
是 一 种 新 的 语言 , 专门 用 于 编 












































实际 上 , 在 Pyrex EE, F 
2 | Pyrex 编译 器 
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H Fi 


展 。 





写 代码 ， 并 运行 









































F, SWIG 会 为 


的 是 ， 








由 David Beazley 编号， 他 同时 也 是 Python Essential Reference 的 作者 。 





也 建议 读者 阅读 Python 文档 中 关于 扩展 和 骨 入 Python 的 内 容 ， 


来 编写 扩展 的 工具 , 如 SWIG, Pyrex, Cython, psyco 和 PyPy。 
来 结束 本 章 。 


生成 器 (Simplified Wrapper and Interface Generator, SWIG) 
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这 款 工 
SWIG 























于 封装 Python Tcl 和 Perl 的 封装 代码 。 使 用 
关注 如 何 用 C/C--f 

















实际 问题 。 所 要 做 








用 户 完成 剩 下 的 了 




















也 会 遇 到 











[ 作 。 在 下 面 的 链接 


通过 Python C API 或 SWIG 创建 C/C++ 扩展 的 一 个 缺点 就 是 必须 要 编写 C/C++ 代码 。 这 
中 的 陷阱 。 Pyrex 提供 
日 扩展 的 优势 ， 也 不 必 牵 扯 到 C/C++ 这 些 令 人 头疼 的 内 容 。Pyrex 











5 Python 扩展 。 它 是 C 和 了 Python 的 混合 体 , 但 更 
Ware“ Pyrex 是 含有 C 数据 类 型 的 Python”. 所 要 做 的 就 是 以 Pyrex 
PERI, Pyrex 会 
通过 Pyrex 可 以 永远 脱离 C 语言 。 可 以 在 Pyrex 官网 获得 Pyrex. 


创建 C 文件 ， 月 








e http://cosc.canterbury.ac.nz/~greg/python/Pyrex 


e http://en.wikipedia.org/wiki/Pyrex (programming language) 





























8.3.3 Cython 

Cython 起 始 于 2007 年 一 个 Pyrex 的 分 支 ， Cython M4 
同时 出 现 。 与 Pyrex 开发 团队 的 谨慎 相 比 ，Cython 7 
和 激进 。 这 导致 了 向 Cython 添加 的 补 ] 























活跃 的 项 目 。 可 以 通过 下 
http://cython.org 






































的 链接 来 阅读 关于 Cython 及 其 与 Pyrex 区 别 的 更 多 信 ， 








接近 于 Python 。 





W 
Eus) 








来 编译 成 普通 的 扩 

















一 个 版 本 是 0.9.6， 与 Pyrex 0.9.6 
于 发 者 在 Cpython 的 开发 过 着 中 更 加 敏捷 
| 、 改 进 和 扩展 比 Pyrex 要 多 得 多 。 但 这 两 个 项 目 都 








E 
AE 
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Ùo 


8.3.4 


Pyrex 和 Cython 都 可 以 不 
Pyrex/Cython 的 代码 都 ; 
Pyrex/Cython 的 工具 来 提升 效率 。 但 如 果 只 用 Python 编写 代码 就 
前 面 的 方式 有 很 大 不 同 。 
Python 代码 运行 得 更 快 呢 ? Psyco 类 似 一 个 即时 (JIT) 编译 器 , 所 以 不 需 
只 需 导 入 Psyco 模块 ， 让 其 在 运行 时 优化 代码 。 
Pysco 还 可 以 分 析 Python 代 码 ， 找 出 
REE TAE ng— B5 pg Hi 
运行 Python 2.2.2-2.6.x 版 本 ， 而 不 是 3.x 版 。 在 撰写 本 书 时 ， 对 
更 多 信息 参见 下 本 
http://psyco.sf.net 


最 终 


RA > 


Pysco 的 理念 与 

















化 时 做 
BSD), 


未 完成 。 


8.3.5 


PyPy 是 Psyco 的 继承 项 目 。 其 有 一 个 非常 宏 


http://wiki.cython.org/DifferencesFromPyrex 
http://wiki.cython.org/FAQ 


Psyco 
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编写 纯 C 代码 之 外 。 但 需要 学 习 新 
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的 语法 (还 有 新 的 语言 )。 








各 转 成 C MEX. 






































的 链接 ”。 








http://en.wikipedia.org/wiki/Psyco 


PyPy 












































立 于 平台 或 目标 执行 环境 的 通 月 
Python 解释 器 。 大 部 分 人 仍然 都 是 这 么 认为 的 ， 但 实际 上 ， 


生态 系 
bow AN 





yo 








统 的 一 部 分 。 














ETHES J ir 














o MENAH 











ZEAWA, NÄ 
e 如 内 存 管 理 、 




































































O >x 其 中 HS 页 所 在 。 
| 是 其 只 支持 32 位 的 Intel 386 架构 (Linux、Mac OS X, Windows, 


日 开发 环境 。PyPy FLA MEE, 









































开发 者 编写 扩展 或 使 
能 获得 
除了 编写 C 代码 之 外 ， 为 什么 不 直接 让 已 


要 改变 Python 源码 ， 























安 伟 的 目标 ， 即 为 开 
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甚至 可 以 启 
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DIT 


这 个 特定 的 





这 样 
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志 来 查看 


























A 


发 解释 型 
Python 编写 创建 
解释 器 是 整个 PyPy 














HT 

















语言 设计 者 仅仅 关注 解释 型 语 
字 节 码 转 换 、 


d [n 


] 类似 SWIG 或 
生 能 提升 呢 ? 


了 的 








Pysco 在 优 


2.7 版 本 的 支持 尚 





语言 创建 一 个 独 














ds 


言 的 解析 和 语义 分 





收 、 




































































数值 类 型 










































































的 内 部 表示 、 原 始 数据 结构 、 原 生 架 构 等 ， 工 具 集 都 会 为 设计 者 处 理 周 全 。 

这 是 通过 用 含有 限制 、 52 bins 型 的 Python〈 称 为 Rpython) 来 实现 新 语言 的 。 前 面 提 到 ， 
Python 是 第 一 种 实现 的 目标 语言 ， 所 以 用 RPython 编写 一 个 Python 解释 器 与 PyPy 的 字面 意 
思 很 接近 。 但 通过 RPython 可 以 实现 任何 语言 ， 而 不 仅仅 是 Python 。 

这 个 工具 链 会 将 RPython 代码 转 成 某 种 底层 显示 , 如 C. Java 字 节 码 或 通用 中 间 语 言 (CIL)， 
即 根据 通用 语言 结构 (Common Language Infrastructure, CLD 标准 编写 的 语言 字 节 码 。 换 句 话说 ， 
解释 型 语言 的 开发 只 需 考虑 语言 设计 ， 而 很 少 关心 其 实现 和 目标 架构 。 更 多 信息 见 下 面 的 链接 。 

e http://pypy.org 

e http://codespeak.net/pypy 
? Pysco 已 于 2012 年 3 月 12 日 终止 。 一 一 译 者 注 
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http://en.wikipedia.org/wiki/PyPy 







































































8.3.6 KRA Python 
RRA AE Python 的 另 一 项 特性 。 其 与 扩展 相反 ， 不 是 将 C 代码 封装 进 Python 中 ， 而 是 在 
C 应 用 中 封装 Python 解释 器 。 这 样 可 以 为 一 个 庞大 、 单 一 、 要 求 严格 、 专 有 ， 并 (或 ) 针对 



































关键 任务 的 应 用 利用 Python 解释 器 的 强大 功能 。 一 旦 在 C 环境 中 拥有 了 Python 解释 器 ， 就 
进入 一 个 全 新 的 领域 。 
Python 提供 了 许多 官方 文档 供 扩展 开发 者 来 查阅 相关 信 
http://docs.python.org/extending/embedding 中 是 其 中 一 些 与 本 章 相关 的 Python 文档 的 链接 。 
A EAE 
http://docs.python.org/ext 
Python/C API 
http://docs.python.org/c-api 
A 7 Python 模块 
http://docs.python.org/distutils 
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8.4 练习 


8-1 
8-2 
8-3 


8-4 
8-5 


8-6 


8-7 
8-8 


扩展 Python. Python 扩展 有 哪些 优点 ? 
扩展 Python。 使 用 扩展 有 哪些 缺点 和 危险 ? 






































编写 Python 扩展 。 获 得 一 个 C/C++ 编 译 器 ， 并 熟悉 C/C++ 编程 。 创 建 一 个 简单 的 






































工具 函数 ， 并 配置 成 一 个 扩展 。 在 C/C++ 和 Python 中 执行 并 验证 扩展 。 


























从 Python 移植 到 C。 选 取 前 几 章 中 的 一 些 练习 ， 将 其 





作为 扩展 模块 移植 到 C/C++ 中 。 








封装 C 代码 。 选 取 很 久之 前 编写 但 想 转 成 Python ff 
个 扩展 模块 。 

















一 段 C/C++ 代码 。 将 其 作为 一 


编写 扩展 Core Python Programming 或 Core Python language Fundamentals. 4E [F Xt 
象 编程 章节 的 一 个 练习 中 ， 在 一 个 类 中 创建 一 个 dollarize0 函 数 ， 用 来 将 浮 点 数 格式 





化 为 金融 格式 的 字符 串 。 创 建 一 个 扩展 来 封装 dollarize0 函 数 ， 并 集成 一 个 
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归 测 试 








函数 〈 如 test) 到 模块 中 。 选 做 题 : 除了 创建 C 扩展 之 外 ， 还 在 Pyrex 和 Cython 





中 重 写 dollarize()。 
TRARA. PM KA AEX Fl? 























不 编写 扩展 。 将 练习 8-3. 8-4 或 8-5 中 编写 的 C/C++ 代码 在 Pyrex 或 Cython 中 用 
伪 Python 代码 重 写 。 描 述 使 用 Pyrex/Cython 编写 代码 与 将 C/C++ 代码 集成 进 C 扩 









































展 中 的 经 验 。 
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第 9 章 Web 客户 端 和 服务 器 


如 果 你 拥有 来 自 于 CERN 的 WWW 项 目的 浏览 器 (World Wide Web, 一 个 分 布 式 超 文本 
系统 )， 就 可 以 浏览 本 手册 的 WWW 超 文 本 版 本 。 





Guido van Rossum，1992 年 11 月 
(在 Python 邮件 列表 中 首次 提 及 Web) 

本 章 内 容 : 

简介 ; 

Python Web 客户 端 工具 ; 

Web 客户 端 ; 

Web (HTTP) 服务 器 ; 

相关 模块 。 
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9.1 简介 























由 于 Web 应 用 程序 的 涵盖 面 非常 广 ， 因 此 本 书 新 版 中 对 这 一 部 分 进行 了 重组 , 针对 Web 
开发 划分 了 多 个 章节 , 每 个 章节 介绍 一 个 主题 , 让 读者 可 以 关注 Web 开发 中 特定 的 几 个 方面 。 

在 深入 其 中 之 前 ， 本 章 将 作为 Web 开发 的 介绍 章节 ， 再 次 重点 讨论 客户 端 /服务 器 架构 ， 
但 这 次 是 从 Web 的 角度 来 了 解 。 本 章 将 为 后 续 章 节 打 下 坚实 的 基础 。 


9.1.1 Web 应 用 : 客户 端 /服务 器 计算 


Web 应 用 遵循 前 面 反复 提 到 的 客户 端 /服务 器 架构 。 这 里 说 的 Web 客户 端 是 浏览 器 ， 即 
允许 用 户 在 万 维 网 上 查询 文档 的 应 用 程序 。 另 一 边 是 Web 服务 器 端 ， 指 的 是 运行 在 信息 提供 
商 的 主机 上 的 进程 。 这 些 服务 器 等 待 客户 端 和 及 其 文档 请 求 ， 进 行 相应 的 处 理 ， 并 返回 相关 
的 数据 。 正 如 大 多 数 客 户 端 /服务 器 系统 中 的 服务 器 端 一 样 ，Web 服务 器 端 “ 永 远 ” 运 行 。 图 
9-1 展示 了 Web 应 用 的 惯用 流程 。 这 里 ， 用 户 运行 Web 客户 端 程序 (如 浏览 器 )， 连 接 因 特 
网 上 任意 位 置 的 Web 服务 器 来 获取 数据 。 
















































































































































































fa D> 因特网 














Ds 


9-1 因特网 上 的 Web 客户 端 和 Web 服务 器 。 因 特 网 上 客户 端 向 服务 器 端 发 送 一 个 请 求 ， 
然后 服务 器 端 响应 这 个 请 求 并 将 相应 的 数据 返回 给 客户 端 




































































客户 端 可 以 向 Web 服务 器 端 发 出 各 种 不 同 的 请 求 。 这些 请 求 可 能 包括 获得 一 个 用 于 查看 
的 网 页 视图 ， 或 者 提交 一 个 包含 待 处 理 数 据 的 表单 。Web 服务 器 端 首先 处 理 请 求 ， 然 后 会 以 
特定 的 格式 CHTML 等 ) 返回 给 客户 端 浏览 。 

Web 客户 端 和 服务 器 端 交互 需要 用 到 特定 的 “语言 >” 即 Web 交互 需要 用 到 的 标准 协议 ， 
称 为 HTTP (HyperText Transfer Protocol， 超 文本 传输 )。HTTP 是 TCP/IP 的 上 层 协 议 ， 这 意味 
着 HTTP 协议 依靠 TCP/IP 来 进行 低层 的 交流 工作 。 它 的 职责 不 是 发 送 或 者 递 消息 (TCP/P D 
议 处 理 这 些 )， 而 是 通过 发 送 、 接 受 HTTP 消息 来 处 理 客户 端的 请 求 。 

HTTP 属于 无 状态 协议 ， 因 为 其 不 跟踪 从 一 个 客户 端 到 男 一 个 客户 端的 请 求 信息 ， 这 点 很 像 
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现在 使 用 的 客户 端 /服务 器 架构 。 服 务 器 持续 运行 但 是 客户 端的 活动 以 单个 事件 划分 的 ， 一旦 完 
成 一 个 客户 请 求 ， 这 个 服务 事件 就 停止 了 。 客 户 端 可 以 随时 发 送 新 的 请 求 ， 但 是 新 的 请 求 会 处 理 
成 独立 的 服务 请 求 。 由 于 每 个 请 求 缺 乏 上 下 文 ， 因 此 你 可 能 注意 到 有 些 URL 中 含有 很 长 的 变量 
和 值 ， 这 些 将 作为 请 求 的 一 部 分 ， 以 提供 一 些 状态 信息 。 男 一 种 方式 是 使 用 “cookie”， 即 保存 在 
客户 端的 客户 状态 信息 。 在 本 章 的 后 面部 分 将 会 看 到 如 何 使 用 URL 和 cookie 来 保存 状态 信息 。 


9.1.2 ”因特网 


因特网 就 像 是 一 个 在 流动 的 大 池塘 ， 全 球 范围 内 互相 连接 的 客户 端 和 服务 器 端 分 散在 其 
中 。 这 些 客户 端 和 服务 器 之 间 含 有 一 系列 的 链接 ， 就 像 是 漂 在 水 面 上 互相 连接 的 睡莲 一 样 。 
客户 端 用 户 看 不 到 这 些 隐 藏 起 来 的 连接 细节 。 客 户 端 与 所 访问 的 服务 器 端 之 间 进 行 了 抽象 ， 
看 起 来 就 像 是 直接 连接 的 。 在 底层 有 隐藏 起 来 的 HTTP、TCPAP， 这 些 协 议 将 会 处 理 所 有 的 
繁重 工作 ， 用 户 无 须 关 心中 间 的 环节 信息 。 因 此 ， 将 这 些 执行 过 程 隐藏 起 来 是 有 好 处 的 。 图 
9-2 更 详细 地 展示 了 因特网 的 细节。 


Colocated .com 服 务 器 
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外 部 服务 器 kl 
企业 局 域 网 企业 网 站 (网 络 ) 


图 9-2 ”因特网 的 概览 。 左 侧 表 示 的 是 Web 客户 端的 位 置 ， 而 右 侧 表示 的 是 Web 服务 器 一 般 所 在 的 位 置 
























































值得 一 提 的 是 , 在 
密 服 务 ， 


默认 没有 加 
据 ; 




















行 加 密 
SocketLayer, SSL), 
是 否 使 用 这 个 额外 的 安 








因特网 
所 以 标准 








上 传输 的 数据 当中 ， 其 中 一 间 
协议 直接 将 应 
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分 会 比较 敏感 。 而 在 传输 过 程 中 ， 











序 发 送 过 来 的 数据 传输 出 去 。 为 了 对 传输 数 





， 和 需要 在 普通 的 套 接 字 上 添加 一 个 额外 的 安全 层 ， 称 为 安全 套 接 字 层 (Secure 
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E. 


客户 端 和 服务 器 在 哪里 
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图 9- 
相对 独立 ) 地 工作 着 。 


2 可 以 看 到 ， 因 

















接 ， 或 TA 
理 服务 器 。 
防火 墙 
络 基 础 i 









































局 域 网 工作 。 
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Bl! 








特 网 由 多 个 互相 连接 的 
图 9-2 的 左边 关注 的 是 Web 客户 端 
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来 创建 一 个 套 接 字 ， 加 密 通 过 该 套 接 字 传输 的 数 和 
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i o 








开发 者 可 以 决定 





网 络 组 成 ， 所 有 这 些 网 络 之 间 都 和 谐 《〈 但 























， 即 用 户 在 家 中 通过 他 们 的 ISP XE 
































缺少 一 些 专 























来 阻止 对 
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DE. i 





并 获得 系统 访问 权 P 
shell 访问 (SSH)， 以 此 降低 入 侵 的 概率 。 安 全 shell 
务 器 是 另 一 个 有 用 的 工具 ， 它 可 能 会 与 防火 墙 
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代理 服 





























民 。 网 络 管理 
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E3 人 十 | 六 立 Mua 
员 会 封杀 大 部 分 端口 ， 只 
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向 代理 。 


另 一 种 相似 的 计算 
机 配置 成 同时 进行 正 向 代理 和 


接 这 个 

















理 员 可 以 只 让 

一 个 有 用 的 是 特性 
页 面 ， 她 的 同事 Heather 后 来 再 
须 与 Web 服务 器 进行 完整 的 交互 ， 而 是 从 代理 
部 门 知 道 至 少 有 两 























部 分 计 外 
































机 访问 网 络 ， 也 可 以 更 好 地 监控 
FE 是 其 可 以 缓存 数据 。 举 例 说 明 ， 如 果 Linda 访问 了 一 个 代理 缓存 过 的 Web 





《但 用 途 广泛 ) 的 设备 ， 如 防火 墙 和 代 








作 RZE) 网 络 未 授权 的 访问 ， 如 阻止 已 知 的 接 入 点 、 对 每 个 网 
有 防火 墙 ， 入 侵 者 就 可 能 侵入 装 有 服务 器 的 计算 机 上 未 受 保护 的 端口 ， 
留 出 常见 的 服务 ， 如 Web 服务 器 和 








访问 基于 前 面 提 到 的 SSL。 
同 工 作 。 通 过 代理 服务 器 ， 网 络 
网 络 的 数据 传输 。 代 理 服务 器 另 
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读者 可 以 推测 一 下 ， 正 


NS 


以 用 来 作为 





扮演 服务 器 端 角色 ， 妇 
防火 墙 或 加 密 数 据 C 
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务 器 在 哪里 
图 











他 们 的 ISP 那里 
务 器 与 ISP 的 


有 用 ， 在 每 天 使 用 因 
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9-2 的 右边 更 关注 Web 服务 器 以 及 它们 的 位 置 。 
/J Web 服务 























有 完整 























向 代理 




















是 反 向 代理 。 它 与 正 向 代理 的 作用 相反 《实际 上 ， 可 以 将 
反 向 代理 )。 反 向 代理 上 
服务 器 。 客 户 端 访问 这 个 后 端 服务 器 ， 接 着 后 端 服务 器 在 网 上 ; 
客户 端 请 求 的 数据 。 反 向 代理 还 可 以 缓存 服务 器 的 数据 ， 如 果 其 作为 后 端 服 务 器 ， 会 将 数据 
给 客户 端 。 
































服务 器 获得 所 有 信息 。 
企 何 时 访问 了 这 个 页 面 。 根 据 代 理 服务 器 的 运作 方式 ， 这 种 称 为 正 


MTA 


的 浏览 器 无 
另外 ， 他 们 公司 的 IT 
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SEAS, e ATE 
行 真正 的 操作 ， 获 得 



























































来 处 理 缓存 数据 ， 
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I 缓存 服务 器 的 数据 、 负 载 平衡 等 。 反 向 代理 服务 器 还 可 








接近 客户 端 。 反 向 代理 更 接近 后 



































过 SSL、HTTPS、 安 全 FTP (SFTP) 等 )。 反 向 代理 非常 





moa 





特 网 的 过 程 中 ， 可 能 会 多 次 用 到 反 向 代理 。 下 面 来 











些 后 端 Web Hk 
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器 场 。 这 种 方式 称 为 





有 大 型 Web 站 点 的 公司 一 般 会 在 











服务 器 托管 ， 意 思 是 这 家 公司 的 服 
他 客户 的 服务 器 放 在 一 起 。 这 些 服务 器 要 么 向 客户 提供 不 同 的 数据 ， 








要 么 
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含有 备份 数据 ， 作 为 元 余 系统 的 一 部 分 在 高 需求 情形 下 《含有 大 量 客户 时 ) 提供 数据 。 小 
公司 的 Web 站 点 或 许 不 需要 很 多 硬件 和 网 络 设备 ， 在 他 们 的 ISP 那里 也 许 只 有 一 台 或 若干 
台 托管 服务 器 。 

不 管 是 哪 种 情况 , 大 部 分 ISP 的 托管 服务 器 都 位 于 骨干 网 上 。 由 于 更 接近 因特网 的 核心 ， 
因此 这 些 服务 器 对 因特网 的 访问 速度 更 快 , 带宽 也 更 大 。 这 让 客户 端 可 以 更 快 地 访问 服务 器 ， 
由 于 服务 器 在 主干 网 中 ， 意 味 着 客户 端 可 以 直接 连接 ， 而 无 须 依次 通过 许多 网 络 才能 访问 ， 
因此 可 以 在 相同 时 间 里 为 更 多 的 客户 端 提供 服务 。 


因特网 协议 


这 里 还 需要 了 解 的 是 ， 虽 然 浏览 网 页 是 使 用 因特网 最 常见 的 方式 ， 但 这 既 不 是 唯一 的 ， 
也 不 是 最 老 的 方式 。 因 特 网 比 Web 要 早 大 概 30 年 。 在 Web 出 现 之 前 ， 因 特 网 主要 用 于 教育 
和 研究 目的 。 那 时 用 到 的 许多 的 因特网 协议 ， 如 FTP, SMTP 和 NNTP， 一 直 沿 用 到 今天 。 
最 初 , 大 家 是 通过 因特网 编程 才 接 触 到 Python, PEL Python 支持 前 面 讨论 到 的 所 有 协议 。 
这 里 对 “因特网 编程 ”和 “Web 编程 ”做 了 区 分 ， 后 者 仅仅 关注 Web 方面 的 应 用 开发 ， 如 
Web 客户 端 和 服务 器 ， 而 这 也 是 本 章 的 核心 。 
因特网 编程 涵盖 了 众多 应 用 ， 包 括 使 用 前 面 提 到 的 因特网 协议 的 应 用 ， 以 及 网 络 和 套 接 
字 编 程 。 这 些 内 容 已 在 本 书 前 面 的 章节 中 介绍 过 了 。 
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9.2 Python Web 客户 端 工具 























有 一 点 需要 记 清楚 ， 浏 览 器 只 是 Web 客户 端的 一 种 。 任 何 一 个 向 Web 服务 器 端 发 送 请 
求 来 获得 数据 的 应 用 程序 都 是 “客户 端 ”。 当然 ， 也 可 以 创建 其 他 的 客户 端 , 来 在 因特网 上 检 
索 出 文档 和 数据 。 创 建 其 他 客户 端的 一 个 重要 原因 是 因为 浏览 器 的 能 力 有 限 ， 浏 览 器 主要 
于 浏览 网 页 内 容 并 同 其 他 Web 站 点 交互 。 另 一 方面 ， 客 户 端 程序 可 以 完成 更 多 的 工作 ， 不 仅 
可 以 下 载 数据 ， 还 可 以 存储 、 操 作 数据 ， 甚 至 可 以 将 其 传送 到 另外 一 个 地 方 或 者 传 给 另外 一 
个 应 用 。 
更 用 urllib 模块 下载 或 者 访问 Web 上 信息 的 应 用 程序 (使 用 urllib.urlopen0 或 者 urllib.urlre 
trieve0 ) 就 是 简单 的 Web 客户 端 。 所 要 做 的 只 是 为 程序 提供 一 个 有 效 的 Web 地 址 。 


9.2.1 统一 资源 定位 符 

简单 的 网 页 浏览 需要 用 到 名 为 URL (统一 资源 定位 符 ) 的 Web 地 址 。 这 个 地 址 用 来 在 Web 
上 定位 一 个 文档 ， 或 者 调用 一 个 CGI 程序 来 为 客户 端 生 成 一 个 文档 。URL 是 多 种 统一 资源 标 
识 符 (Uniform Resource Identifier, URI) 的 一 部 分 。 这 个 超 集 也 可 以 应 对 其 他 将 来 可 能 出 现 的 
标识 符 命名 约定 。 一 个 URL 是 一 个 简单 的 URI， 它 使 用 已 有 的 协议 或 方案 ( 即 http. ftp 55) 
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作为 地 址 的 一 部 分 。 为 了 更 完整 地 描述 ,还 要 介绍 非 URL 的 URI， 有 时 它们 称 为 统一 资源 名 


称 (Uniform Resource Name，URN)， 但 是 现在 唯一 使 
到 的 XML 标识 符 了 。 
如 街道 地 址 一 样 ，Web 地 址 也 有 一 些 结构 。 美 


和 URN， 后 者 只 作为 可 能 会 月 
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的 URI AA URL, ifj fg 4b Ur Bi] URI 










































































































































































































































































































































































国 的 街道 地 址 通常 形 如 “号 码 街道 名 称 ”， 
例如 “123 某 某 大 街 ”， 其 他 国家 的 街道 地 址 也 有 自己 的 规则 。URL 使 用 这 种 格式 。 
prot_sch://net_loc/path; params ?query#frag 
K 9-1 介绍 了 URL 的 各 个 部 分 。 
表 9-1 Web 地 址 的 各 个 组 件 
URL 组 件 jo R 
prot sch 网 络 协议 或 下 载 方案 
net loc 服务 器 所 在 地 《也 许 含 有 用 户 信息 ) 
path 使 用 斜 杠 0) 分 割 的 文件 或 CGI 应 用 的 路 径 
params 可 选 参数 
query ERI C&O 分 割 的 一 系列 键 值 对 
frag 指定 文档 内 特定 锚 的 部 分 
net loc 可 以 进一步 拆 分 成 多 个 组 件 ， 一 些 是 必 备 的 ， 另 一 些 是 可 选 的 。net_loc 字符 串 
如 下 。 
user:passwd@host :port 
表 9-2 介绍 了 各 个 组 件 。 
表 9-2 ”网 络 地 址 的 各 个 组 件 
组 ” 件 tek 
user 户 名 或 登录 
passwd 户 密码 
host 运行 Web 服务 器 的 计算 机 名 称 或 地 址 (必需 的 ) 
port 端口 号 (如 果 不 是 默认 的 80) 
在 这 4 个 组 件 中 ，host 名 是 最 重要 的 。port 号 只 有 在 Web 服务 器 运行 其 他 非 默 认 端 口号 
上 时 才 会 使 用 如果 不 确定 所 使 用 的 端口 号 ， 可 以 参见 第 2 章 )。 
用 户 名 和 密码 只 有 在 使 用 FTP 连接 时 候 才 有 可 能 用 到 ， 而 即便 使 用 FTP， 大 多 数 的 连接 
都 是 匿名 的 ， 这 时 不 需要 用 户 名 和 密码 。 
Python 文 持 两 种 不 同 的 模块 ， 两 者 分 别 以 不 同 的 功能 和 兼容 性 来 处 理 URL。 一 种 是 


























urlparse， 男 一 种 是 urllib。 








F 面 将 会 简单 介绍 它们 的 功能 。 
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9.2.2 urlparse 模块 

















urlpasrse 模块 提供 了 一 些 基本 功能 ， 用 于 处 理 URL 字符 串 。 这 些 功能 包括 urlparse()、 





urlunparse0 和 urljoin() « 


urlpasrse.urlunparse() 





























urlparse() URL 字符 串 拆 分 成 前 面 描述 的 一 些 主要 


urlparse (urlstr, defProtSch-None, allowFrag-None) 





urlparse() 将 urlstr 解析 成 一 个 6 元 组 Cprot. sch, net. loc, path, params, query, frag). Hi (I 



































组 件 。 其 语法 结构 如 下 。 











经 描述 了 这 里 的 每 个 组 件 。 如 果 urlstr 中 没有 提供 默认 的 网 络 协议 或 下 载 方案 ,defProtSch 会 














指定 一 个 默认 的 网 络 协议 ,allowFrag 标识 一 个 URL 是 
经 urlparse0 后 的 输出 。 








否 允 许 使 用 片段 。 下 边 





>>> urlparse.urlparse('http://www.python.org/doc/FAQ.html') 


('http', 'www.python.org', '/doc/FAQ.html', '' 


urlparse.urlunparse() 

















rry or!) 


是 一 个 给 定 URL 





urlunparse() 的 功能 与 urlpase0 完 全 相反 ， 其 将 经 urlparse0 处 理 的 URL 4 
元 组 (prot_sch, net, loc, path, params, query, frag), 拼接 成 URL 并 返回 。 因此 可 以 用 如 下 方式 表 








示 其 等 价 性 : 


urlunparse(urlparse(urlstr)) = urlstr 
读者 或 许 已 经 猪 到 了 urlunpase() 的 语法 。 


urlunparse (urltup) 














urlparse.urljoin() 




















在 需要 处 理 多 个 相关 的 URL 时 我 们 就 需要 使 用 urljjoin0 的 功能 了 ,例如 ,一 个 Web 页 ! 




















可 能 会 产生 一 系列 页 面 URL。urljoin0 的 语法 是 如 下 。 


urljoin (baseurl, newurl, allowFrag=None) 


E X, urltup 这 个 6 
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urljoinO 取 得 根 域名 ， 并 将 其 根 路 径 (net loc. 及 其 





文件 ) 与 newurl 连接 起 来 。 例 如 : 




















前 面 的 完整 路 径 ， 但 


>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html', 


'current/lib/lib.htm') 


'http://www.python.org/doc/current/lib/lib.html' 








K 9-3 总 结 了 urlparse 中 的 函数 。 


是 不 包括 末端 的 
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表 9-3 urlparse 模块 中 的 核心 函数 
urlparse 函数 Jj x 


urlparse(urlstr, defProtSch-None, allowFrag-None) | 将 urlstr 解析 成 各 个 组 件 ， 如 果 在 urlstr 中 没有 给 定 协议 或 者 方案 ， 则 使 
defProtSch; allowFrag 决定 是 否 允 许 有 URL 片段 



























































urlunparse(urltup) 将 URL 数据 (urltup) 的 一 个 元 组 拼 成 一 个 URL 字符 串 
urljoin(baseurl, newurl, allowFrag=None) 将 URL 的 根 域名 和 newurl 拼合 成 一 个 完整 的 URL; allowFrag 的 作用 和 
urlpase() 相 同 


9.2.3 urllib 模块 / 包 


核心 模块 : Python 2 和 Python 3 中 的 urllib 

除非 需要 写 一 个 更 加 低层 的 网 络 客户 端 ,否则 urllib 模块 就 能 满足 所 有 需要 .urllib 
提供 了 一 个 高 级 的 Web 通信 库 ， 支 持 基 本 的 Web 协议 ， 如 HTTP. FTP 和 Gopher 协 
议 ， 同 时 也 支持 对 本 地 文件 的 访问 。 有 具体 来 说 ，urllib 模块 的 功能 是 利用 前 面 介绍 的 协 
议 来 从 因特网 、 局 域 网 、 本 地 主机 上 下 载 数据 。 使 用 这 个 模块 就 无 须 用 到 httplib. ftplib 
和 gopherlib 这 些 模 块 了 ， 除 非 需要 用 到 更 低层 的 功能 。 在 那些 情况 下 这 些 模块 可 以 作 
为 备 选 方案 ( 注意 ， 大 多 数 以 协议 名 +lib 的 方式 命名 的 模块 都 用 于 开发 相关 协议 的 客 
户 端 。 但 并 不 是 所 有 情况 都 是 这 样 的 ， 或 许 urllib 应 该 重 命名 为 “internetlib” 或 者 其 
他 相似 的 名 字 )。 

Python 2 中 有 urlib、urlparse、urllib2， 以 及 其 他 内 容 。 在 Python 3 中 ， 所 有 这 些 相关 
模块 都 整合 进 了 一 个 名 为 urllib 的 单一 包 中 。urlib 和 urlib2 中 的 内 容 整合 进 了 urlib.request 
模块 中 ，urlparse 整合 进 了 urllib.parse P. Python 3 中 的 urlib 包 还 包括 response. error 和 
robotparse 这 些 子 模块 。 在 继续 学 习 本 章 后 续 的 示例 和 练习 时 需要 注意 这 些 区 别 。 


urllib 模块 提供 了 许多 函数 ， 可 用 于 从 指定 URL 下 载 数据 ， 同 时 也 可 以 对 字符 串 进行 纺 
码 、 解 码 工作 ， 以 便 在 URL 中 以 正确 的 形式 显示 出 来 。 下 面 将 要 介绍 的 函数 包括 urlopen()、 


urlretrieve(). quote(). unquote(). quote plus(). unquote plus()fll urlencode()。 其 中 一 些 方法 
可 以 使 用 urlopen0 方 法 返回 的 文件 类 型 对 象 。 

urllib.urlopen() 

urlopenO 打 开 一 个 给 定 URL 字符 串 表 示 的 Web 连接 ， 并 返回 文件 类 型 的 对 象 。 语 法 结 
构 如 下 。 


urlopen (urlstr, postQueryData-None) 


urlopen() 打 开 urlstr 所 指向 的 URL。 如 果 没 有 给 定 协议 或 者 下 载 方案 (Scheme), mé fe 
入 了 “file” 方 案 ，urlopen0 会 打开 一 个 本 地 文件 
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对 于 所 有 的 HTTP 请 求 ， 常 见 的 请 求 类 型 是 “GET”。 在 这 些 情 ; 
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发 送 的 请 求 字 符 串 (编码 过 的 键 值 对 ， 如 urlencode0) 函 数 返回 的 字符 串 ) 应 该 是 urlstr 的 











一 部 分 。 



































如 果 使 用 “POST” 请 求 方法 ， 请 求 的 字符 串 (编码 过 的 ) 应 该 放 到 postQueryData 变量 
中 (本 章 后 续 部 分 将 介绍 关于 “GET” 和 “POST” 方 法 的 更 多 信息 ， 但 这 些 HTTP 命令 是 




















于 Web 编程 和 HTTP 本 身 的 ， 



































读 文 件 。 例 如 ， 如 果 文 件 对 象 是 

















Rd 








并 不 特定 于 Python )。 








一 旦 连接 成 功 ，urlopenO 将 会 返回 一 个 文件 类 型 对 象 ， 就 像 在 目标 路 径 下 打开 了 一 个 可 




















f， 那 么 “句柄 ”会 支持 一 些 读 取 内 容 的 方法 ， 如 freadQ. 


f.readline(). f.readlines(). f.close() fll f.fileno(). 











此 外 ，finfo0 方 法 可 以 返 匠 











MIME (Multipurpose Internet Mail Extension， 多 目标 因特网 





























邮件 扩展 ) 头 文件 。 这 个 头 文件 通知 浏览 器 返回 的 文件 类 型 ， 以 及 可 以 用 哪 类 应 用 程序 打开 。 









































例如 ， 浏 览 器 本 身 可 以 查看 HIML、 纯 文本 文件 、 演 染 PNG (Portable Network Graphics) X 
件 、JPEG (Joint Photographic Experts Group) 或 者 GIF (Graphics Interchange Format) 文件 。 




















而 其 他 如 多 媒体 或 特殊 类 型 文件 






































需要 通过 其 他 应 用 程序 才能 打开 





o 

















最 后 ，geturl(0 方 法 在 考虑 了 所 有 可 能 发 生 的 重 定向 后 ， 从 最 终 打 开 的 文件 中 获得 真实 的 








URL. X 9-4 描述 了 这 些 文件 类 型 对 象 的 方法 。 


























表 9-4 ”urllib.urlopen() 文 件 类 型 对 象 的 方法 













































































定位 、cookie 等 问题 ， 建 议 使 
























































urlopen() 对 条 方法 jo R 
f.read([bytes]) 从 f 中 读 出 所 有 或 bytes 个 字 节 
freadline() 从 f 中 读 取 一 行 
freadlines() 从 中 读 出 所 有 行 ， 作 为 列表 返 下 
f.close() 关闭 /的 URL 连接 
f.fileno() 返回 f 的 文件 句柄 
finfoO) 获得 f 的 MIME 头 文件 
f.geturl() 返回 f 的 真正 URL 
如 果 打 算 访问 更 加 复杂 的 URL 或 者 想 要 处 理 更 复杂 的 情况 , 如 基于 数字 的 权限 验证 、 重 
] urllib2 模块 。 这 个 模块 依然 拥有 一 个 urlopen0 函 数 ， 但 同时 





已 提供 了 可 以 打开 各 种 URL 的 其 他 函数 和 类 。 





























如 果 读 者 使 用 的 是 2.x 版 本 ， 
































这 里 强烈 建议 在 2.6 和 3.0 版 本 中 使 用 urllib2.urlopen(). Fl 











为 从 2.6 版 本 开始 ，urllib AF 
个 核心 模块 侧 边栏 时 ， 已 经 提 到 

















中 。 这 表示 2.x 版 本 中 的 urlib2.urlopen() (已 经 没有 urllib.urlopen0 了 ) 在 3.x 版 本 中 需要 使 用 


的 urllib.requesturlopenO 函 数 。 


] J urlopen 函数 ， 而 3.0 版 本 中 移 除了 该 函数 。 在 阅读 前 面 




















那 
这 两 个 模块 中 的 功能 在 Python 3 中 都 合并 进 了 urllib.request 
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urllib.urlretrieve() 


urlretrieveO 不 是 用 来 以 文件 的 形式 访问 并 打开 URL， 而 是 用 于 下 载 完 整 的 HTML, E5 
存 为 文件 ， 其 语法 如 下 。 


urlretrieve(url, filename-None, reporthook-None, data-None) 


除了 像 urlopen0 这 样 从 URL 中 读 取 内 容 ,urlretrieve0 可 以 方便 地 将 urlstr 中 的 整个 HTML 
文件 下 载 到 本 地 硬盘 上 。 下 载 后 的 数据 可 以 存 成 一 个 localfile 或 者 一 个 临时 文件 。 如 果 该 文 
件 已 经 复制 到 本 地 或 者 url 指向 的 文件 就 是 本 地 文件 ， 就 不 会 发 生 后 面 的 下 载 动作 。 
如 果 提 供 了 downloadStatusHook， 则 在 每 块 数据 下 载 或 传输 完成 后 会 调用 这 个 函数 。 调 
时 使 用 以 下 3 个 参数 ， 目 前 读 入 的 块 数 、 块 的 字 节 数 和 文件 的 总 字 节 数 。 如 果 正 在 用 文本 
或 图 表 向 用 户 显 示 “ 下 载 状态 ”信息 ， 这 个 函数 将 会 非常 有 用 。 
urlretrieveO 返 回 一 个 二 元 组 (filename, mime. hdrs?« filename 是 含有 下 载 数据 的 本 地 文件 
4, mime hdrs 是 Web 服务 器 响应 后 返回 的 一 系列 MIME 文件 头 。 要 获得 更 多 的 信息 ， 可 以 
查看 mimetools 模块 的 Message 类 。 对 本 地 文件 来 说 ，mime_hdrs 是 空 的 。 












































































































































































































































urllib.quote() 和 urllib.quote plus() 
quote*() FK ZI H 2E 3X URL 数据 , 并 将 其 编码 , 使 其 可 以 用 于 URL 字符 串 中 。 具体 来 说 ， 


必须 对 某 些 不 能 打印 的 或 者 不 被 Web 服务 器 作为 有 效 URL 接收 的 特殊 字符 串 进行 转换 。 这 
就 是 quote*0 函 数 的 功能 。gquote*() 函 数 的 语法 如 下 。 































































































quote(urldata, safe-'/') 

逗号 、 下 划 线 、 句 号 、 和 斜 线 和 字母 数字 这 类 符号 不 需要 转化 ， 其 他 的 则 均 需 要 转换 。 另 
;那些 URL 不 能 使 用 的 字符 前 边 会 被 加 上 百 分 号 (%) 同时 转换 成 十 六 进 制 , 例如 , “9%xx”， 
中 ,“xx” 表 示 这 个 字母 的 ASCH 码 的 十 六 进 制 值 。 当 调用 quote*0 时 ，urldata 字符 串 转 换 
成 一 个 可 在 URL 字符 串 中 使 用 的 等 价 字 符 串 。safe 字符 串 可 以 包含 一 系列 不 能 转换 的 字符 ， 
默认 字符 是 斜 线 〈/)。 
quote_plus0 与 quote0 很 像 ， 只 是 它 还 可 以 将 空格 编码 成 “+” 号 。 下边 是 一 个 使 用 quote 

和 quote_plusO 的 例子 。 
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>>> name = 'joe mama' 

>>> number = 6 

>>> base = 'http://www/-foo/cgi-bin/s.py' 

>>> final = '$s?name-$s&num-$d' % (base, name, number) 
>>> final 

"http://www/~foo/cgi-bin/s.py?name=joe mamaénum=6' 


>>> 


316 第 2 部 分 Web 开发 


>>> urllib.quote(final) 


'http:$3a//www/$7efoo/cgi-bin/s.py$3f£name$3djoe$20mama$26num£$3d6' 


>>> 


>>> urllib.quote_plus (final) 


"http%3a//www/%7efoo/cgi-bin/s.py%3fname%3djoe+mama%26num%3d6' 


urllib.unquote()44 urllib.unquote plus() 





























读者 也 许 已 经 猜 到 了 ，unquote*() 函 数 与 quote*() 函 数 的 功能 完全 相反 ， 前 者 将 所 有 编码 
为 “%xx” 式 的 字符 转换 成 等 价 的 ASCII 人 码 值 。unquote*0) 的 语法 如 下 。 





unquote* (urldata) 


























unquote_plus0 函 数 会 将 加 号 转换 成 空格 符 。 


urllib.urlencode() 




















调用 unquote0 函 数 将 会 把 urldata 中 所 有 的 URL 编码 字母 都 解码 ， 并 返回 字符 串 。 





urlopenO) 函 数 接收 字典 的 键 值 对 ， 并 将 其 编译 成 字符 串 ， 作 为 CGI 请 求 的 URL 字符 串 的 
一 部 分 。 键 值 对 的 格式 是 “ 键 = 值 >， 以 连接 符 〈 信 ) 划分 。 另 外 ， 键 及 其 对 应 的 值 会 传 到 
quote_plus0) 函 数 中 进行 适当 的 编码 。 下 边 是 urlencode0 输 出 的 一 个 例子 。 





















































>>> aDict = ( 'name': 'Georgina Garcia', 'hmdir': 


>>> urllib.urlencode (aDict) 


'name-GeorginatGarcia&hmdir-$7eggarcia' 

















'«sggarcia' } 











urllib 和 urlparse 还 有 一 些 其 他 的 函数 ， 这 里 就 不 
文档 。 
表 9-5 总 结 了 本 节 介 绍 的 urllib 中 的 函数 。 




















氢 述 了 。 更 多 信息 可 以 阅读 相关 


表 9-5 urllib 模块 中 的 核心 函数 


























































































































urllib 函数 T 述 
urlopen(uristr, postQueryData=None) 打开 URL urlstr， 如 果 是 POST 请 求 ， 则 通过 postQueryData 发 送 请 求 的 数据 
urlretrieve(urlstr, localfile=None, 将 URL urlstr 中 的 文件 下 载 到 localfile 或 临时 文件 中 (如 果 没 有 指定 localfile); 如 
downloadStatusHook=None) 果 函 数 正在 执行 ，downloadStatusHook 将 会 获得 下 载 的 统计 信息 
quote(urldata, safe") 对 urldata 在 URL 里 无 法 使 用 的 字符 进行 编码 ，safe 中 的 字符 无 须 编 码 
quote plus(urldata, safe) 除了 将 空格 编译 成 加 C+) 号 〈 而 非 %20) 之 外 ， 其 他 功能 与 quote0 相 似 
unquote(urldata) 将 urldata 中 编码 过 的 字符 解码 
unquote plus(urldata) 除了 将 加 号 转换 成 空格 ， 其 他 功能 与 unquoteO HIR] 
urlencode(dict) 将 dict 的 键 值 对 通过 quote_plus0 编 译 成 有 效 的 CGI 查询 字符 串 ， 用 quote_plus()xt 

这 个 字符 串 进行 编码 
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SSL Support 


在 对 urllib 做 出 总 结 并 接触 其 他 示例 之 前 ， 需 要 指明 的 是 ，urllib 模块 通过 安全 套 接 字 层 
(SSL) 支持 开放 的 HTTP 连接 (socket 模块 的 核心 变化 是 增加 并 实现 了 SSL)。httplib PERSE 
持 使 用 “https ”连接 方案 的 URL。 除 了 那 两 个 模块 以 外 ， 其 他 支持 SSL 的 模块 还 有 imaplib、 
poplib 和 smtplib。 


9.2.4 使 用 urllib2 HTTP 验证 的 示例 


正如 前 面 所 提 到 的 ，urllib2 可 以 处 理 更 复杂 URL 的 打开 问题 。 例如 有 基本 验证 (登录 名 
和 密码 ) 需求 的 Web 站 点 。 通 过 验证 的 最 简单 方法 是 使 用 前 边 章节 描述 的 URL 中 的 net. loc 
组 件 ， 例 如 http://user name:passwd@www.python.org。 但 这 种 解决 方案 的 问题 是 它 不 具有 可 
编程 性 。 而 通过 urllip2， 可 以 用 两 种 不 同 的 方式 来 解决 这 个 问题 。 

可 以 建立 一 个 基础 验证 处 理 程序 Curllib2.HTTPBasicAuthHandler)， 同 时 在 根 域 名 和 域 上 
注册 一 个 登录 密码 ， 这 就 意味 着 在 Web 站 点 上 定义 了 一 个 安全 区 域 。 当 完成 了 这 个 处 理 程 序 
后 ， 安 装 URL 开启 器 〈opener)， 通 过 这 个 处 理 程序 打开 所 有 的 URL. 

域 来 自 Web 站 点 的 安全 部 分 定义 的 .htaccess 文件 。 下 面 是 这 样 一 个 文件 的 示例 。 
















































































































































































































































































AuthType basic 

AuthName "Secure Archive" 
AuthUserFile /www/htdocs/.htpasswd 
require valid-user 
























































在 Web 站 点 的 这 一 部 分 中 ，AuthName 列 出 的 字符 串 就 是 域 。 通 过 htpasswd 命令 创建 用 
户 名 和 加 密 的 密码 , 并 安装 在 .htpasswd 文件 中 。 关 于 域 和 Web 验证 的 更 多 信息 ,参见 RFC 2617 
(HTTP 验证 : 基本 和 摘要 式 存 取 验 证 )， 以 及 维基 百科 的 页 面 https://en.wikipedia.org/ 


wiki/Basic access authentication. 


男 一 个 创建 开启 器 的 办 法 就 是 当 浏 览 器 提示 的 时 候 ， 通 过 验证 处 理 程序 模拟 用 户 输入 用 
户 名 和 密码 ， 这 样 就 发 送 了 一 个 带 有 适当 用 户 请 求 的 授权 头 。 示 例 9-1 演示 了 这 两 种 方法 。 



































































































































示例 9-1 基本 HTTP 验证 〈urlopen_auth.py) 
这 段 代 码 使 用 了 前 面 提 到 的 基本 HTTP 验证 知识 。 这 里 必须 使 用 url1ib2， 因 为 urllib 中 没有 这 些 功能 。 




































































#/usr/bin/env python 
import urllib2 
LDGIN-"wesley" 


PASSW D="you' IINever Guess" 
URL="http://localhost 


NOU BP WN HnH 


318 第 2 部 分 Web 开发 


8 REALM = 'Secure Archive' 


10 def handler_version(url): 
11 from urlparse import urlparse 


12 hdlr = urllib2.HTTPBasicAuthHandler() 
13 hdlr.add password(REALM, 
14 urlparse(url)[1], LOGIN, PASSWD) 
15 opener = urllib2.build opener(hdlr) 
16 urllib2.install_opener (opener) 
17 return url 
18 
19 def request_version(url): 
20 from base64 import encodestring 
21 req = urllib2.Request(url) 
22 b64str = encodestring('%s:%s' 96 (LOGIN, PASSWD))[:-1] 
23 req.add header("Authorization", "Basic %s" % b64str) 
24 return req 
25 
26 for funcType in ('handler', 'request'): 
27 print '*** Using %s:' % funcType.upper() 
28 url = eval('Xs version' % funcType) CURL) 
29 f = urllib2.urlopen(url) 
30 print f.readline() 
31 f.close() 
逐 行 解释 
第 1~8 行 























普通 的 初始 化 过 程 ， 外 加 几 个 为 后 续 脚 本 使 用 的 常量 。 需 要 注意 的 是 ， 其 中 的 敏感 信息 
应 该 位 于 一 个 安全 的 数据 库 中 ， 或 至 少 来 自 环 境 变量 或 预 编译 的 .pyc 文件 ， 而 不 是 位 于 源码 
文件 中 硬 编码 的 纯 文 本 中 。 

第 10~17 4f 

代码 的 “handler” 版 本 分 配 了 前 面 提 到 的 一 个 基本 处 理 程序 类 ， 并 添加 了 验证 信息 。 之 
后 该 处 理 程序 用 于 建立 一 个 URL 开启 器 ， 安 装 该 开启 器 以 便 所 有 打开 的 URL 都 能 用 到 这 
些 验证 信息 。 这 上段 代码 改编 自 Python 官方 文档 中 的 urllib2 模块 。 

第 19—24 íF 

“request” 版 本 的 代码 创建 了 一 个 Request 对 象 ， 并 在 HTTP 请 求 中 添加 了 简单 的 基 64 
编码 的 验证 头 信息 。 在 for 循环 里 调用 urlopen0 时 ， 该 请 求 用 来 替换 其 中 的 URL 字符 串 。 注 
意 ， 原 始 URL 内 建 在 SES Requst 对 象 中 ， 因 此 在 随后 的 urllib2.urlopen(Q VA H F 4% URL 
字符 串 才 不 会 产生 问题 。 这 段 代 码 的 灵感 来 自 于 Mike Foord 和 Lee Harr 在 Python Cookbook 
上 的 回复 ， 具 体位 置 如 下 。 

e http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/305288 

e http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/267197 

如 果 能 直接 用 Harr 的 HTTPRealmFinder 类 就 更 好 了 ， 那 样 就 无 须 在 例子 里 使 用 硬 
编码 。 
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第 26 一 31 行 

代码 的 剩余 部 分 只 是 用 两 种 技术 分 别 打开 了 给 定 的 URL， 并 显示 服务 器 返回 的 HTML 
页 面 的 第 一 行 ( 转 储 了 其 他 行 )， 当 然 ， 前 提 是 要 通过 验证 。 注意 ， 如 果 验 证 信息 无 效 会 返回 
一 个 HTTP £i GF HA HTML). 
程序 的 输出 应 当 如 下 所 示 。 

$ python urlopen auth.py 


*** Using HANDLER: 
<html> 
























































*** Using REQUEST: 
<html> 


作为 urllib2 官方 的 Python 文档 的 补充 ， 下 面 这 个 文件 很 有 帮助 。 
http://www. voidspace.org.uk/python/articles/urllib2.shtml 





9.2.5 将 HTTP 验证 示例 移植 到 Python 3 中 


在 编写 本 书 时 , 移植 这 个 应 用 除了 使 用 2to3 这 个 转换 工具 外 , 还 需要 更 多 的 精力 。 当 然 ， 
2to3 完成 了 其 中 的 主要 工作 ， 但 还 需 对 代码 进行 一 些微 调 。 首 先 对 urlauth_open.py 脚本 
运行 2to3 工具 。 













































































$ 2to3 -w urlopen auth.py 








在 Windows 平台 上 可 以 使 用 类 似 的 命令 完成 操作 。 从 前 面 章节 的 描述 中 读者 可 能 已 经 知 
道 了 ， 这 条 命令 会 将 代码 从 Python 2 转 到 Python 3 时 发 生 的 改变 列 出 来 。 原 先 的 代码 会 用 
Python 3 版 本 履 盖 掉 ， 并 自动 生成 一 个 Python 2 版 本 的 备份 。 
手动 将 文件 从 urlopen_auth.py 重 命名 为 urlopen_auth3.py, 将 备份 后 的 urlopen_auth.py.bak 
命名 为 urlopen_auth.py。 在 POSIX RAE, 通过 下 面 的 命令 执行 这 些 操作 (在 Windows 平台 
上 ， 可 以 通过 相应 的 DOS 命令 或 Windows 图 形 化 操作 来 完成 )。 


































































































$ mv urlopen auth.py urlopen auth3.py 
$ mv urlopen auth.py.bak urlopen auth.py 


这 样 文件 名 符合 命名 规范 ， 并 能 更 好 地 识别 出 Python 2 版 本 的 代码 和 转换 后 的 Python 3 
版 本 的 代码 。 而 运行 这 个 工具 只 是 一 个 开始 。 如 果 乐 观 地 认为 转换 后 的 程序 可 以 直接 运行 ， 
会 发 现 其 实 是 太 天真 了 。 

$ python3 urlopen auth3.py 


*** Using HANDLER: 
b'<HTML>\n' 
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换 成 





Ice 


rH 


*** Using REQUEST: 


Traceback (most recent call 


ile "urlopen auth3.py", 


url = eval('$s version' 


pi 


le "urlopen_auth3.py", 
b64str 


encodestring(' 


Pp- 


le "/Library/Frameworks 


python3.2/base64.py", line 


return encodebytes (s) 





File "/Library/Frameworks 





python3.2/base64.py", line 


raise TypeError("expect 


TypeError: expected bytes, 


last): 
line 28, in «module» 


funcType) (URL) 


x 
© 


line 22, in request_version 
(LOGIN, PASSWD) ) [:-1] 
/Python. framework/Versions/3.2/lib/ 


x 
© 


$s:$s' 


353, in encodestring 


/Python. framework/Versions/3.2/lib/ 








这 个 问题 的 解决 方案 和 预想 的 差不多 ， 
% (LOGIN, PASSWD). "B 


字符 串 ， 即 b'%s:%s' 














对 象 。 
WR: 


只 是 Python 2 迁移 到 Python 3 时 


$ python3 urlopen auth3.py 
*** Using HANDLER: 
b'<HTML>\n!' 

*** Using REQUEST: 
Traceback (most recent call 


File "urlopen auth3.py", 


url eval('$s version' 


File "urlopen auth3.py", 








341, in encodebytes 
ed bytes, not $s" $ s. class name ) 
not str 
在 第 22 行 的 字符 串 的 引号 之 前 加 上 “b” 将 其 转 





A 


I 


到 的 众多 问题 中 的 一 个 。 














行 ， 会 发 现 男 一 个 错误 ， 








*' FH 
会 遇 


last): 
line 28, in <module> 


funcType) (URL) 


x 
© 


line 22, in request_version 
(LOGIN, PASSWD) ) [:-1] 


$5.9 % 
'S$s:$s' $ 


and type(s) for $: 'bytes' and 'tuple' 



































b64str = encodestring( 
TypeError: unsupported oper 
很 明显 ， 因 为 字符 串 不 再 以 单 
因此 , 需要 将 字符 








bytes('%s:%s' 


"RT. 


但 结果 还 是 有 点 问题 ， 


$ python3 urlopen auth3.py 
*** Using HANDLER: 
b'<HTML>\n!' 

*** Using REQUEST: 
b'<HTML>\n!' 


因为 在 b 




















接 使 


] 纯 文本 。 为 此 需要 将 printO 调 








HJAR E 





就 与 Python 2 的 完全 相同 了 。 








% (LOGIN, PASSWD), nutft-8))。 通 过 这 些 更 改 ， 程 序 的 输 





子 节 为 单位 ， 所 以 字符 串 格 式 化 运算 符 不 再 支持 bytes 





BIEN (Unicode) 文本 对 象 来 格式 化 , 接着 将 这 个 文本 转换 成 bytes 








更 接近 期 

















ytes 对 象 之 前 使 用 标记 《前 导 “b” 引号 等 )， 而 不 是 直 
P X print(str(f.readline(), 'utf-8)). JE Python 3 版 本 
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$ python3 urlopen auth3.py 
*** Using HANDLER: 
<html> 


*** Using REQUEST: 
<html> 


如 你 所 见 ， 虽 然 这 种 移植 需要 手动 逐步 调整 ， 但 这 依然 是 可 行 的 。 男 儿 




















， 前 面 也 提 到 ， 


urllib, urlib2 和 ulrparse 都 合并 进 了 Python 3 中 的 urllib 包 中 。 由 于 2to3 所 做 的 工作 ， 已 经 














示例 9-2 Python 3 的 HTTP 验证 脚本 〈urlopen_auth3.py) 
这 是 urlopen auth.py 脚本 的 Python 3 版 本 。 

#!/usr/bin/env python3 

import urllib.request, urllib.error, urllib.parse 
LOGIN = 'wesley' 

PASSWD = "you'llNeverGuess" 


URL = 'http://localhost' 
REALM = ‘Secure Archive' 


CeAWDUSWNe 


10 def handler_version(url): 
11 hdlr = urllib.request.HTTPBasicAuthHandler() 


12 hdlr.add password(REALM, 

13 urllib.parse.urlparse(url)[1], LOGIN, PASSWD) 
14 opener = urllib.request.build opener(hdlr) 

15 urllib.request.install_opener (opener) 

16 return url 

17 

18 def request_version(url): 

19 from base64 import encodestring 

20 req = urllib.request.Request(url) 

21 b64str = encodestring( 

22 bytes('%s:%s' % (LOGIN, PASSWD), ‘utf-8'))[:-1] 
23 req.add header("Authorization", "Basic %s" % b64str) 
24 return req 

23 

26 for funcType in ('handler', 'request'): 

27 print('*** Using %s:' 96 funcType.upperO) 

28 url = eval('9s version' % funcType) CURL) 

29 f = urllib.request.urlopen(url) 

30 print(str(f.readline(Q), 'utf-8') 

31 f.closeQ 


























下 面 将 介绍 稍微 高 级 一 点 的 Web 客户 端 。 








在 前 面 导 入 了 urllib.parse， 并 移 除了 handler_version0 中 多 余 的 定义 。 可 以 在 示例 9-2 中 发 现 
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9.3 Web 客户 端 


























Web 浏览 器 是 基本 的 Web 客户 端 。 它 主要 用 来 在 Web 上 查询 或 者 下 载 文档 。 但 还 可 以 
创建 一 些 具 有 其 他 功能 的 Web 客户 端 。 本 节 将 介绍 若干 这 样 的 客户 端 。 


9.31 一 个 简单 的 Web 疏 虫 / 蜂 蛛 /机 器 


个 稍微 复杂 的 Web 客户 端 例子 就 是 网 络 疏 虫 〈 又 称 晓 蛛 或 机 器 人 )。 这 些 程序 可 以 为 

了 不 同 目的 在 因特网 上 探索 和 下 载 页 面 ， 其 中 包括 以 下 几 个 目的 。 

e 为 Google 和 Yahoo 这 类 大 型 的 搜索 引擎 创建 索引 。 

。 离线 浏览 ， 即 将 文档 下 载 到 本 地 硬盘 ， 重 新 设 定 超 链 接 ， 为 本 地 浏览 器 创建 镜像 。 

。 下 载 并 保存 历史 记录 或 归档 。 

。 缓存 Web 页面， 节省 再 次 访问 Web 站 点 的 下 载 时 间 。 

示例 9-3 中 的 crawl.py 用 来 通过 起 始 Web 地 址 CURL)， 下 载 该 页 面 和 其 他 后 续 链 接 
页 面 , 但 是 仅 限 于 那些 与 开始 页 面 有 相同 域名 的 页 面 。 如 果 没 有 这 个 限制 , 会 耗 尽 硬盘 上 
的 空间 ! 


























































































































示例 9-3 Web Me Ccrawl.py) 


这 个 爬虫 含有 两 个 类 : 一 个 用 于 管理 整个 息 虫 进程 (crawler)， 男 一 个 获取 并 解析 每 个 下 载 到 的 web 页 面 
(Retriever) C&A IMATE 2 版 中 相同 的 示例 进行 了 重 构 )。 




































































#!/usr/bin/env python 


l 

2 

3 import cStringIO 

4 import formatter 

5 from htmllib import HTMLParser 
6 import httplib 

7 import os 

8 import sys 

9 import urllib 

10 import urlparse 


12 class Retriever(object): 


13 . Slots = ('url', 'file') 

14 def — init__(self, url): 

15 self.url, self.file = self.get_file(url) 

16 

17 def get file(self, url, default='index.htm1'): 

18 'Create usable local filename from URL' 

19 parsed = urlparse.urlparse(url) 

20 host = parsed.netloc.split('QG')[-1].split(' :'5 [0] 
21 filepath = '%s%s' % (host, parsed.path) 


22 if not os.path.splitext(parsed.path) [1]: 


def 


def 
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filepath = os.path.join(filepath, default) 
linkdir = os.path.dirname(filepath) 
if not os.path.isdir(linkdir): 
if os.path.exists(linkdir): 
os.unlink(linkdir) 
os.makedirs(linkdir) 
return url, filepath 


download(self): 
'Download URL to specific named file' 
try: 
retval = urllib.urlretrieve(self.url, self.file) 
except (IOError, httplib.InvalidURL) as e: 
retval = (('*** ERROR: bad URL "9s": %s' % ( 
self.url, e)),) 
return retval 


parse links(self): 

'Parse out the links found in downloaded HTML file' 

f = open(self.file, 'r') 

data = f.readO 

f.close() 

parser = HTMLParser(formatter.AbstractFormatter( 
formatter.DumbWriter(cStringIO.StringI0O()))) 

parser.feed(data) 

parser.close() 

return parser.anchorlist 


class Crawler(object): 
count = 0 


def 


def 


. init Cself, url): 

self.q = [ur1] 

self.seen = set() 

parsed = urlparse.urlparse(url) 

host = parsed.netloc.split('Q')[-1].split(': ') [0] 
self.dom = '.'.join(host.split('.'2[-2:]) 


get page(self, url, media-False): 

'Download page & parse links, add to queue if nec' 

r = Retriever(url) 

fname = r.download() [0] 

if fname[0] == '*': 
print fname, ' 
return 

Crawler.count += 1 

print 'An(', Crawler.count, ')' 

print 'URL:', url 

print 'FILE:', fname 

self.seen.add(ur1) 

ftype = os.path.splitext(fname) [1] 

if ftype not in ('.htm', '.htm1'): 
return 


. Skipping parse' 


for link in r.parse linksO: 
if link.startswith('mailto:'): 
print '... discarded, mailto link' 
continue 
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81 if not media: 
82 ftype = os.path.splitext(link) [1] 
83 if ftype in ('.mp3', '.mp4', '.m4v', '.wav'): 
84 print '... discarded, media file' 
85 continue 
86 if not link.startswith('http://'): 
87 link = urlparse.urljoin(url, link) 
88 print '*', link, 
89 if link not in self.seen: 
90 if self.dom not in link: 
91 print '... discarded, not in domain' 
92 else: 
93 if link not in self.q: 
94 self.q.append(link) 
95 print '... new, added to Q' 
96 else: 
97 print '... discarded, already in Q' 
98 else: 
99 print '... discarded, already processed' 
100 
101 def go(self, media-False): 
102 'Process next page in queue (if any)' 
103 while self.q: 
104 url = self.q.popO 
105 self.get page(url, media) 
106 
107 def mainO: 
108 if len(sys.argv) » 1: 
109 url = sys.argv[1] 
110 else: 
111 try: 
112 url = raw_input('Enter starting URL: ') 
113 except (KeyboardInterrupt, EOFError): 
114 url = '' 
115 if not url: 
116 return 
117 if not url.startswith('http://') and \ 
118 not url.startswith('ftp://'): 
119 url = 'http://%s/' % url 
120 robot = Crawler(url) 
121 robot.go() 
122 
123 if _name__ == ' main ': 
124 main() 
逐 行 解释 


第 1 一 10 行 

该 脚本 的 起 始 部 分 包括 Python 在 UNIX 上 标准 的 初始 化 行 , 同时 导入 一 些 程序 中 会 用 到 
的 模块 和 包 。 下 面 是 一 些 简单 的 解释 。 

e cStringIJO、formatter、htmllib: 使 用 这 些 模块 中 不 同 的 类 来 解析 HTML. 

。 httplib: 使 用 这 个 模块 中 定义 的 一 个 异常 。 


























。 os: 该 模 








e urllib: 使 月 


e urlparse: 
第 12—29 4T 


Retriever 类 的 任务 是 从 Web 下 载 页 面 ， 解 析 每 个 文档 中 的 链接 并 在 必 
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块 提供 了 许多 文件 系统 方面 的 函数 。 












































e sys: 使 用 其 中 提供 的 argv 来 处 理 命 
其 中 的 urlretrive0 函 数 来 下 载 Web 页 面 。 


使 用 其 中 的 urlparseO0 和 urljoin0 函 数 来 处 理 URL. 


令 行 参数 。 



































要 的 时 候 把 它 


























们 加 入 “to-do” 队 列 。 这 里 为 从 网 上 下 载 的 每 个 页 面 都 创建 一 个 Retriever 类 的 实例 。 


Retriever 中 有 若干 方法 ,| 


和 parse_links()。 


























来 实现 相关 功能 : 构造 函数 (__init 02. get_file()、download()、 





暂时 跳 过 一 些 内 容 , wE get file), 这 个 方法 将 指定 的 URL 转 成 本 地 存储 的 更 加 安全 的 



































文件 ， 即 从 Web | 


为 获取 主机 名 而 附加 的 额外 信息 ， 如 ) 





上 下 载 这 个 文件 。 基 本 上 ， 











这 其 实 就 是 将 URL 的 http:/ 前 缀 移 除 ， 丢 掉 任 何 


























] 户 名 、 密 码 和 端口 号 (2079 。 


























没有 文件 扩展 名 后 级 的 URL 将 添加 一 个 默认 的 index.html 文件 名 , 调用 者 可 以 重 写 这 个 





文件 名 。 可 以 在 第 21 一 23 行 了 解 其 工作 方式 ， 并 最 终 创 建 了 filepath。 












































最 后 得 到 最 终 的 目标 路 径 ( 第 24 行 ), 检测 它 是 否 为 目录 。 如 果 是 , 则 不 管 它 , 返回 “URL- 
文件 路 径 ” 键 值 对 。 如 果 进 入 了 证 子 句 ， 这 意味 着 路 径 名 要 么 不 存在 ， 要 么 是 个 普通 文件 。 
需要 将 其 删除 并 重新 创建 同名 目录 。 最 终 ， 使 用 第 28 行 的 os.makedirs() 
创建 目标 目录 及 其 所 有 父 目 录 。 

现在 回 到 初始 化 函数 _init_0 中 。 在 这 里 创建 了 一 个 Retriever 对 象 ， 将 get_file() 返 回 
的 URL 字符 串 和 对 应 的 文件 名 作为 实例 属性 存储 起 来 。 在 当前 的 设计 中 ， 每 个 下 载 下 来 的 
文件 都 会 创建 一 个 实例 。 而 Web 站 点 会 含有 许多 文件 ， 为 每 个 文件 都 创建 对 象 实 例会 导致 








如 果 是 普通 文件 ， 


额外 的 内 存 问 题 。 
和 self.file 属性 。 
第 31~49 行 


= 



















































































为 了 降低 资源 开销 , 这 












































EE 创建 了 __slots”_ 变量 , 表示 实例 只 能 拥有 self.url 








这 里 先 稍微 了 解 一 下 扑 虫 ， 这 个 候 虫 很 聪明 地 为 每 个 下 载 下 来 的 文件 创建 一 个 Retriever 
download() 方 法 通过 给 定 的 链接 在 因特网 上 下 载 对 应 的 页 面 〈 第 34 íD 。 











对 象 。 顾 名 思 义 ， 

















并 将 URL 作为 参数 来 调用 

如 果 下 载 成 功 ， 则 返回 文人 
提示 字符 串 (第 35~36 f£). IE 
析 刚 下 载 下 来 的 页 面 链接 。 





















































urllib.urlretreive()， 将 其 另存 为 文件 名 〈 即 get_file0 返 回 的 )。 
F 名 (第 34 行 )， 如 果 出 错 ， 则 返回 一 个 以 “***” 开 头 的 错误 









































检查 这 些 返 回 值 ， 如 果 没 有 出 错 ， 则 调用 parse_linkes0 解 



































在 这 部 分 中 更 如 
































E 要 的 方法 是 parse_linkes()。 是 的 ， 爬 虫 的 任务 是 下 载 Web 页 面 ， 但 递归 




















的 候 虫 现在 这 个 就 是 递归 的 ) 会 查看 所 有 下 载 下 来 的 页 面 中 是 否 含有 额外 的 链接 ， 并 进行 
处 理 。 它 首先 打开 下 载 到 的 Web 页 面 , 将 所 有 HTML 内 容 提 取 成 单个 字符 串 ( 第 42~~44 行 。 
第 45—49 行 的 内 容 是 一 个 常见 的 代码 片段 ， 其 中 使 用 了 htmllib.HTMLParse 类 。 这 个 代 




















码 片段 是 Python 程序 员 代 代 相 传 的 ， 现 在 传 到 了 读者 这 里 。 
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这 段 代码 的 工作 方式 中 ， 最 重要 的 是 parser 类 不 进行 JO， 它 只 处 理 一 个 formatter 对 象 。 
Python 只 有 一 个 formatter 对 象 ， 即 formatterAbstractFormatter， 用 来 解析 数据 并 使 用 writer 




















对 象 来 分 配 其 






























































输出 内 容 。 同 样 ,Python 只 有 一 个 有 用 的 writer 对 象 ， 即 formatterDumbWriter。 











可 以 为 该 对 象 提 供 一 个 可 选 的 文件 对 象 ， 表 示 将 输出 写 入 文件 。 如 果 不 提供 这 个 文件 对 象 ， 
则 会 写 入 标准 输出 ， 但 后 者 一 般 不 是 所 期 望 的 。 为 了 不 让 输出 写 到 标准 输出 ， 先 实例 化 一 个 
cStringIO 对 象 。StringIO 对 象 会 吸收 掉 这 些 输 出 〈 如 果 读 者 对 类 UNIX 系统 有 所 了 解 ， 就 类 


似 其 中 的 /dev/null)。 可 以 在 网 上 搜索 这 些 类 名 ， 找 到 类 似 的 代码 片段 和 注释 。 











































































































由 于 htmllib.HTMLParser 很 老 ， 从 Python 2.6 开始 弃 用 了 。 下 一 小 节 将 介绍 使 用 另 一 个 
较 新 的 工具 写 更 加 小 巧 的 示例 。 这 里 先 继续 使 用 htmllib.HTMLParser， 因 为 这 是 个 常见 的 代 











码 片段 ， 而 且 依 然 能 正确 地 完成 工作 。 









































总 之 ， 创 建 解析 器 的 所 有 复杂 问题 都 由 一 个 简单 的 调用 完成 〈 第 45 一 46 行 )。 这 一 部 分 


剩 下 的 代码 用 
第 51~59 
Crawler 类 是 这 次 演示 中 的 “明星 ”管理 一 个 Web X5 SEU. WRAMA TE 

序 添加 线程 


























于 在 HTML 中 进行 解析 、 关 闭 解 析 器 并 将 解析 后 的 链接 / 锚 作 组 成 列表 返回 。 


z= 











存储 了 3 样 东 

















d 






































可 以 为 每 个 待 抓 仆 的 站 点 分 别 创建 实例 。 Crawler 的 构造 函数 在 实例 化 过 程 ! 


























5， 第 一 个 是 self.q,， 是 一 个 待 下 载 的 链接 队列 。 这 个 队列 的 内 容 在 运行 过 程 中 














会 有 变化 ， 有 页 面 处 理 完毕 就 缩短 ， 在 每 个 下 载 的 页 面 中 发 现 新 的 链接 则 会 增长 。 





Crawler 包含 的 另 两 个 数值 是 selfseen， 这 是 所 有 已 下 载 链 接 的 一 个 集合 。 个 是 






























































self.dom, 








有 这 三 个 值 者 























和 储 主 链接 的 域名 ， 并 用 这 个 值 来 关 定 后 续 链接 的 域名 与 主 域名 是 否 一 致 。 所 
了 在 初始 化 方法 _init 0 中 创建 ， 参 见 第 $S4 一 59 fT. 















































注意 ， 在 第 58 行使 用 urlparse.urlparse() 解 析 域 名 ， 与 在 Retriever 中 通过 URL 抓 取 主机 
名 的 方式 相同 。 域 名 是 主机 名 的 最 后 两 部 分 。 因 为 主机 名 在 这 里 并 没什么 用 ， 所 以 可 以 将 第 
58 行 和 第 59 行 连 起 来 写 ， 但 这 样 可 读 性 就 大 大 降低 了 。 


self.dom = '.'.join(urlparse.urlparse( 





保持 追踪 从 因 















































url) .netloc.split('@') [-1].split(':') [0].split('. ') [-2:]) 


fr init OWEN, Crawler 还 有 一 个 名 为 count 的 静态 数据 项 。 这 是 一 个 计数 器 ， 用 于 
特 网 上 下 载 下 来 的 对 象 数 目 。 每 成 功 下 载 一 个 网 页 ， 这 个 变量 就 递增 1 。 
























































第 61 一 105 行 
除了 构造 函数 以 外 ，Crawler 还 有 另外 一 对 方法 ， 分 别 是 get page04 go0。go0 是 一 个 





简单 的 方法 ,月 





























有 于 启动 Crawler。go0 在 代码 的 main 部 分 调用 。go0 中 含有 一 个 循环 ， 用 于 将 
队列 中 所 有 待 下 载 的 新 链接 处 理 完毕 。 而 这 个 类 中 真正 埋头 兰 干 的 是 get_page0 方 法 。 













































































getLpage0 使 用 第 一 个 链接 实例 化 一 个 Retriever 对 象 , 然后 开始 处 理 。 如 果 页 面 成 功 下 载 ， 
则 递增 计数 器 (否则 , 在 第 65 一 67 行 忽略 发 生 的 错误 ) 并 将 该 链接 添加 到 已 下 载 的 集合 中 (第 















































72 行 )。 使 用 











nd 


合 是 因为 加 入 的 链接 顺序 不 重要 ， 同 时 集合 的 查找 速度 比 列 表 快 。 




















> 


main0 需 要 一 个 URL 来 启动 处 理 。 如 果 在 命令 行 指 定 了 一 个 URL《〈 例 如 ， 这 个 脚本 被 直 


H 


有 链接 ， 判 断 是 否 需要 向 列表 





x 














Bii 


四 
HJ 

















ZN 
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geLpage0 会 查看 每 个 下 载 完成 的 页 面 〈 在 第 73 一 75 行 会 跳 过 所 有 非 Web 页 面 ) 中 的 所 







































































时 ， 如 第 108—109 行 所 示 )， 就 会 使 / 





























添加 更 多 的 链接 (第 TI—TI9 19 。go0 
理 链接 ， 直 到 队列 为 空 ， 此 时 会 声明 处 理 成 功 ( 第 103—105). 
他 域名 的 链接 (第 90—91 行 )， 或 已 经 下 载 的 链接 (第 08—99 行 )， 已 位 于 队列 ， 
等 待 处 至 





的 主 循环 会 继续 处 














的 链接 〈 第 06—97 行 )、 邮 箱 链接 等 ， 都 会 被 忽略 ， 不 会 添加 到 队列 中 《第 78 一 
80 行 )。 媒 体 文件 也 会 被 忽略 (第 81—85 行 )。 
第 107—124 íF 





















































下 面 是 一 个 调用 crawl.py 的 例子 。 


$ crawl.py 





Enter starting URL: http://www.null.com/home/index.html 




















这 个 指定 的 URL。 否 则 ， 肢 本 进入 交互 模式 ， 提 
户 输入 初始 URL。 一 旦 有 了 初始 始 链接 ， 就 会 实例 化 Crawler 并 启动 (第 120—121 行 )。 














(1) 

URL: http://www.null.com/home/index.html 

FILE: www.null.com/home/index.html 

* http://www.null.com/home/overview.html ... new, added to Q 

* http://www.null.com/home/synopsis.html ... new, added to Q 

* http://www.null.com/home/order.html ... new, added to Q 

* mailto:postmaster@null.com ... discarded, mailto link 

* http://www.null.com/home/overview.html ... discarded, already in Q 
* http://www.null.com/home/synopsis.html ... discarded, already in Q 
* http://www.null.com/home/order.html ... discarded, already in Q 

* mailto:postmaster@null.com ... discarded, mailto link 

* http://bogus.com/index.html ... discarded, not in domain 

(2) 


URL: http://www.null.com/home/order.html 


FILE: www.null.com/home/order.html 


* mailto:postmaster@null.com ... discarded, mailto link 

* http://www.null.com/home/index.html ... discarded, already processed 
* http://www.null.com/home/synopsis.html ... discarded, already in Q 

* http://www.null.com/home/overview.html ... discarded, already in Q 
(3) 


URL: http://www.null.com/home/synopsis.html 


FILE: www.null.com/home/synopsis.html 


* http://www.null.com/home/index.html ... discarded, already processed 


328 第 2 部 分 Web 开发 


* http://www.null.com/home/order.html ... discarded, already processed 


* http://www.null.com/home/overview.html ... discarded, already in Q 


(4) 
URL: http://www.null.com/home/overview.html 


FILE: www.null.com/home/overview.html 


* http://www.null.com/home/synopsis.html ... discarded, already processed 
* http://www.null.com/home/index.html ... discarded, already processed 
* http://www.null.com/home/synopsis.html ... discarded, already processed 


* http://www.null.com/home/order.html ... discarded, already processed 





执行 后 ， 在 本 地 系统 文件 中 会 创建 一 个 名 为 www.null.com 的 目 




















THX. home 目录 中 会 含有 所 有 处 理 过 的 HTML 文件 。 























如 果 在 阅读 了 这 些 代码 后 ,依然 想 找到 一 些 使 用 Python 编写 和 

















录 ， 及 一 个 名 为 home 的 


Me. WW Aa 





























Google Web JER, ix“ HY Python 编写 的 。 更 多 信息 参见 http://infolab.stanford. 








edu/~backrub/google.html. 


9.3.2 解析 Web 页 面 


BUSTA f fex" Web 客户 端 。 疏 虫 过 程 中 牵扯 到 了 解析 链接 或 在 正式 调用 时 进 
行 锚 定 KA , 在 解析 Web 页 面 时 会 用 到 众所周知 的 htmllib.HTMLParser 这 个 代码 片段 。 





















































但 新 改善 过 的 模块 和 包 也 出 现 了 。 这 一 小 节 将 介绍 其 中 一 些 新 的 内 容 。 
在 示例 9-4 中 ， 介 绍 了 一 个 标准 库 文 件 ， 即 HTMLParse 模块 〈 自 2.2 版 本 添加 ) 中 的 



































HTMLParse 2$, HTMLParser.HTMLParser 用 于 蔡 换 htmllib.HTMLParser。 












































因为 前 者 更 简单 ， 








可 以 从 更 底层 的 视角 观察 页 面 , 且 可 以 处 理 XHTML. 而 后 者 比较 老 , HÆF sgmllib HER CE 























味 着 必须 理解 复杂 的 标准 通用 标记 语言 (Standard Generalized Markup Language, SGML), [Al 
但 这 里 会 提供 


























此 也 更 加 复杂 。 官 方 文档 对 HTMLParser.HTMILParser 的 介 乡 
示例 。 












































很 少 ， 























更 多 有 用 的 





在 Python 最 著名 的 3 个 Web 解析 器 中 , 这 里 演示 了 其 中 两 个 : BeautifulSoup 和 html5lib. 


这 两 个 库 不 是 标准 库 ， 因 此 需要 单独 下 载 。 可 以 在 Cheeseshop 或 http://pypi.python.org 下 载 





























这 两 个 库 。 为 了 方便 起 见 ， 可 以 使 用 easy_install 或 pip 工具 进行 安装 。 











Z 
































而 跳 过 的 那个 是 lxml, 这 个 将 作为 练习 让 读者 自己 来 完成 。 在 本 
将 这 些 例子 中 的 htmllib.HTMLParser 替换 为 Ixml 能 帮 读 者 更 好 地 理解 相关 知识 。 
示例 9-4 中 的 parser_links.py 脚本 只 用 于 从 输入 数据 中 解析 出 锚 
































章 末 尾 会 发 现 更 多 例子 ， 





点 。 给 定 一 个 URL 后 ， 


脚本 会 提取 所 有 链接 ， 尝 试 进行 必要 的 调整 ， 生 成 完整 的 URL， 对 这 些 URL 进行 排序 并 显 
示 给 用 户 。 其 会 对 每 个 URL 运行 所 有 的 3 个 解析 器 。 尤 其 对 于 BeatifulSoup， 提 供 两 种 不 同 
二 种 需要 用 到 SoupStrainer 

















的 解决 方案 。 第 一 种 简单 一 些 , 解析 所 有 标签 并 查找 所 有 锚 标签 。 第 


|J 

















类 ， 它 只 针对 并 处 理 锚 标 签 。 
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示例 9-4 ”链接 解释 器 (parse_links.py) 


这 段 脚 本 会 使 用 三 种 不 同 的 解释 器 来 从 HTML 锚 标 签 中 提取 链接 。 这 样 可 以 更 好 地 理解 HTMParser 标准 库 模 块 ， 
以 及 第 三 方 的 BeautifulSoup 和 html51ib 包 。 












































#!/usr/bin/env python 


1 

2 

3 from HTMLParser import HTMLParser 

4 from cStringIO import StringIO 

5 from urllib2 import urlopen 

6 from urlparse import urljoin 

1 

8 from BeautifulSoup import BeautifulSoup, SoupStrainer 

9 from html5lib import parse, treebuilders 

10 

11 URLs = 

12 'http://python.org', 

13 'http://google.com', 

l4 ) 

15 

16 def output(x): 

17 print '\n'.join(sorted(set(x))) 

18 

19 def simpleBS(url, f): 

20 'simpleBS() - use BeautifulSoup to parse all tags to get anchors' 
21 output(urljoin(url, x['href']) for x in BeautifulSoup( 
22 f).findAll('a')) 

23 

24 def fasterBS(url, f): 

25 'fasterBS() - use BeautifulSoup to parse only anchor tags' 
26 output(urljoin(url, x['href']) for x in BeautifulSoup( 
27 f, parseOnlyThese-SoupStrainer('a'))) 

28 

29 def htmlparser(url, f): 

30 'htmlparser() - use HTMLParser to parse anchor tags' 
31 class AnchorParser(HTMLParser): 

32 def handle starttag(self, tag, attrs): 

33 if tag != 'a': 

34 return 

35 if not hasattr(self, 'data'): 

36 self.data = [] 

37 for attr in attrs: 

38 if attr[0] == 'href': 

39 self.data.append(attr[1]) 

40 parser = AnchorParser() 

4l parser.feed(f.read()) 

42 output(urljoin(url, x) for x in parser.data) 

43 

44 def html5libparse(url, f): 

45 'html5libparse() - use html5lib to parse anchor tags' 
46 output(urljoin(url, x.attributes['href']) \ 

47 for x in parse(f) if isinstance(x, 

48 treebuilders.simpletree.Element) and \ 

49 x.name -- 'a') 

50 


51 def process(url, data): 
52 print '\n*** simple BS' 
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53 simpleBS(url, data) 
54 data.seek(0) 
55 print '\n*** faster BS' 
56 fasterBS(url, data) 
57 data.seek(0) 
58 print '\n*** HTMLParser' 
59 htmlparser(url, data) 
60 data.seek(0) 
61 print '\n*** HTML51ib' 
62 html5libparse(url, data) 
63 
64 def main(): 
65 for url in URLs: 
66 f = urlopen(ur1) 
67 data = StringIO(f.read()) 
68 f.close() 
69 process(url, data) 
70 
71 if | name _ == ' main ': 
72 main) 
逐 行 解释 
第 1~9 行 
在 这 个 脚本 中 ， 使 用 标准 库 中 的 4 个 模块 。HTMLParser 是 其 中 一 个 解析 器 。 另 外 三 个 
的 使 用 遍及 各 处 。 导 入 的 第 二 组 是 第 三 方 ( 非 标准 库 ) 模块 / 包 。 这 是 标准 的 导入 顺序 ， 即 先 
导入 标准 模块 / 包 ， 接 着 导入 第 三 方 模块 / 包 ， 最 后 导入 应 用 的 本 地 模块/ 包 。 
第 11717 4T 
URL 变量 含有 需要 解析 的 Web 页 面 。 可 以 自由 添加 、 更 改 或 移 除 这 里 的 URL。output() 





函数 接受 一 个 可 迭 代 且 含有 链接 的 变量 ， 








们 按 字母 顺序 排序 ， 将 


1927 43 











a 





























将 这 些 链接 放 到 集合 中 ， 以 移 除 
合并 到 换行 符 分 隔 的 字符 串 中 ， 














以 此 呈现 给 用 户 











重复 的 链接 。 把 它 





在 simpleBSO 和 fasterBSO 函 数 中 用 注释 强调 了 对 BeautifulSoup 的 使 用 。 在 


中 ， 在 通过 文件 句柄 实例 化 BeautifulSoup 时 开 
使 用 从 PyCon Web 站 点 已 经 下 载 下 来 的 






































>>> from BeautifulSoup import BeautifulSoup as BS 


>>> f = open('pycon.html') 
>>> bs = BS(f) 








当 获 取 示 例 并 调用 
如 下 所 示 。 








>>> type(bs) 


其 


ZN 

















的 fndAl10 方 法 来 请 求 锚 标 签 


<class 'BeautifulSoup.BeautifulSoup'> 
>>> tags = bs.findAll('a') 


Ca 时 ， 其 FAIA 


始 解 析 。 在 其 后 的 一 段 代码 中 进行 提取 ， 这 
页 面 作为 pycon.html。 








5 





一 个 标签 列表 ， 
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>>> type (tags) 

«type 'list'» 

>>> len(tags) 

19 

>>> tag = tags[0] 

>>> tag 

«a href="/2011/">PyCon 2011 Atlanta</a> 
>>> type (tag) 

<class 'BeautifulSoup.Tag'» 
>>> tag['href'] 

u'/2011/' 


由 于 Tag 对 象 是 一 个 锚 ， 它 应 该 含有 一 个 “href” 标 签 ， 因 此 获取 其 中 的 内 容 。 接 着 调 


] urlparse.urljoin() 并 传递 潜 URL， 以 及 用 于 获得 全 部 URL 的 那个 链接 。 这 里 是 连续 的 例子 
(假设 使 用 PyCon URL)。 













































































>>> from urlparse import urljoin 
>>> url = 'http://us.pycon.org' 
>>> urljoin(url, tag['href']) 
u'http://us.pycon.org/2011/' 


X^ IE B3 3S1 urlparse、urljjoin0 从 所 有 锚 标 签 创 建 的 所 有 最 终 链 接 ， 并 将 其 发 
至 output), 它 按 前 面 描述 方式 处 理 它 们 。 如 果 由 于 使 用 生成 器 表达 式 导 致 这 段 代 码 有 点 难 懂 ， 
这 里 可 以 将 其 展开 成 等 价 的 urlparse.urljjoin0 形 式 。 


def simpleBS(url, f): 































































































parsed = BeautifulSoup(f) 
tags = parsed.findAll('a') 
links = [urljoin(url, tag['href']) for tag in tags] 
output (links) 
从 可 读 性 方面 考虑 ， 这 段 代码 比 单行 版 本 要 好 一 些 。 建 议 编写 开源 或 合作 性 项 目 时 ， 尽 
量 不 要 将 代码 集成 到 一 行 
尽管 simpleBSO AUR HE 但 其 中 一 个 缺点 是 处 理 效率 不 高 。 这 里 使 用 BeautifulSoup 
解析 文档 中 的 所 有 标签 ， 接 着 查找 销 。 如 果 进 行 过 滤 ， 只 处 理 含 有 错 的 标签 〈 并 忽略 剩余 的 
标签 )， 速 度 会 快 一 点 。 
这 就 是 fasterBSO 所 做 的 工作 ， 使 用 SoupStrainer 辅助 类 来 完成 这 个 任务 并 将 这 个 请 求 
传递 给 过 滤器 ， 只 有 销 标 签 会 作为 parseOnlyThese 的 参数 )。 使 用 SoupStrainer 可 以 让 
BeautifulSoup 在 构建 解析 树 时 跳 过 所 有 不 关心 的 元 素 ， 这 样 节 省 了 时 间 和 内 存 。 另 外 ， 当 解 
析 完 成 后 ， 解 析 树 中 只 有 锚 ， 所 以 无 须 在 迭代 前 调用 findAIIQZ7 3. 
第 29~42 4T 
在 htmlparser()! 


















































ffin] 


























































































































































































































用 标准 库 中 的 HTMLParser.HTMLParser 类 进行 解析 。 这 里 就 可 以 
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看 出 为 什么 BeautifulSoup 解析 器 更 加 流行 ， 因 
使 用 HTMLParser 在 效率 上 还 较 低 ， 这 是 
并 重复 调用 列表 的 append0 方 法 。 










































































为 其 代码 更 少 ， 比 使 用 HTMLParser 更 精简 。 
因为 后 者 需要 手动 构建 列表 ， 即 创建 一 个 空 列表 ， 








HTMLParser 比 BeautifulSoup 更 加 底层 。 需 要 子 类 化 HTMLParser 且 必 须 创 建 一 个 名 为 


handle_starttag() 的 方法 ， 在 文 伯 















































F 流 中 每 次 遇 到 新 标签 时 就 会 调用 这 个 方法 〈 第 31—39 15 。 








这 里 跳 过 了 所 有 非 锚 标 签 (第 33—34 íT), 并 将 所 有 销 链 接 添加 到 self.data 中 (第 37—39 í) ， 











在 需要 的 时 候 初 始 化 s 
为 了 使 用 新 的 解析 器 ， 
中 ， 创 建 完 整 的 URL 并 显示 HH 


第 44~49 fT 


最 后 一 个 例子 使 用 html5lib， 这 是 一 个 遵循 HTMLS 标准 的 HTML 文档 解析 器 。 使 用 


html5lib 最 简单 的 方法 是 对 处 到 ] parser) žr CE 47 行 )。 其 构建 并 输出 一 棵 自 定义 
































simpletree 格式 的 简单 树 。 





还 可 以 选择 其 他 流行 格式 

















import html5lib 
f = open("pycon.html") 
html5lib.parse(f, treebuilder-"lxml") 
f.close() 


tree = 


除非 真 的 需要 一 棵 特定 格式 的 树 ， 人 否 由 











内 容 调 











— 














一 个 普通 文档 ， 





Tiu Se 




















elf.data (38 35—36 í) 。 
在 第 40—41 行 实例 化 并 提供 参数 .解析 器 的 处 理 结果 放 在 parser.data 
Hoe CH 42 行 )， 就 如 同 前 面 的 BeautifulSoup 例子 一 样 。 








要 用 下 面 的 形式 查看 输出 结果 。 

















>>> import html5lib 
>>> f = open("pycon.html") 


>>> tree 


>>> f.close() 
>>> for x in data: 


. print x, type(x) 
«html» «class 'html51 
<html> «class 'html151 
<head> «class 'html51 
«None» «class 'htm151 
«meta» «class 'html51 
«None» <class 'htm151 


lib. 
lib. 


ib. 


lib. 
lib. 
lib. 


«title» «class 'html5lib 


«None» 
«None» 


<img> «class 'html5lib.treebuilders.simplet 
51 


«None» 


<cl 
<cl 


lass 'h 
lass 'h 





«cl 


ass 'h 





cma 


cm. 





cm. 


9l 
24 





ib. 
ib. 


ib. 





html5lib.parse(f) 


treebuil 
treebuil 
treebuil 
treebuil 
treebuil 
treebuil 


treebuil 
treebuil 





treebuil 


lders.simpl 
lders.simpl 
lders.simpl 
lders.simpl 
lders.simpl 
lders.simpl 


.treebuilders.simpl 





lders.simpl 
lders.simpl 


Le 
Le 
Le 
Le 
Le 
Le 


e 
e 





lders.simpl 


e 






































的 树 ， 如 minidom, ElementTree, Ixml 或 BeautifulSoup. “Ws 
选择 其 他 格式 的 树 ， 需 要 将 格式 的 名 称 作 为 treebuilder 参数 传递 给 parse()。 











| simpletree 通常 就 足够 了 。 如 果 尝 试 运 行 并 解析 











cree. 
cree. 
cree. 
cree. 
cree 
cree. 


cree. 
cree 


ree.E 





cree. 


etree. 








DocumentType'» 
Element'» 
Element'» 
TextNode'» 


.Element'» 


TextNode'» 
Element'» 
TextNode'» 


.CommentNode'» 


lement'» 
TextNode'» 





«hl» «cla 


ss 'html5lib.treebuilders.simpl 
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etree.Element'> 


<a> «class 'html5lib.treebuilders.simpletree.Element'» 


«None» «class 'html5lib.treebuilders.simpletree.TextNode'» 


«h2» «cla 
«None» «c 


ss 'html5lib.treebuilders.simpl 


lass 


遍历 的 大 多 数 项 是 Element 或 TextNode 对 象 。 


关心 Element 这 种 特定 的 对 象 是 否 为 锚 。 为 了 将 TextNode i 














fh 
bed 
第 51~72 íF 











Ho 





进行 了 两 次 检查 , 即 在 第 
十 应 的 “href” 属 性 ， 














etree.Element'» 


'html5lib.treebuilders.simpletree.TextNode'» 














在 这 个 例子 ， 











合并 到 完整 URL 中 ， 











并 像 之 前 那样 输出 












































这 个 应 用 的 驱 


动 程序 是 main0 函 数 ， 用 于 处 











成 一 个 调 ) 
可 以 通过 























j 来 下 载 页 面 ， 然 后 立即 将 数据 存 入 
procee0 和 迭代 这 个 对 象 来 使 ) 























694) 。 








(第 46 


里 在 第 1114 行 发 现 的 所 有 链接 。 
一 个 StringIO 对 象 中 《第 65~68 行 )， 
每 个 解析 器 C 


不 关心 TextNode XZR, R 
过 滤 掉 ， 在 生成 器 表达 式 中 的 if 
47—49 行 只 检查 是 否 为 Element 和 错 。 对 于 符合 要 求 的 标签 ， 


p 


47 )o 








它 首 先生 
这 样 就 








process0O 函 数 〈 第 51~62 47) 将 目标 URL 和 StringIO 对 象 作为 输入 ， 接 着 在 每 个 解析 





器 上 执行 调用 ， 输 出 结果 。 对 于 每 两 次 连续 的 解析 C 
一 个 解析 器 重 置 StringIO 对 象 C 











BB 54. 57. 6015 . 











H 正确 
































URL， 输 出 其 中 锚 
支持 Python 3. 


9.3.3 


这 是 Web 客 
Mechanize (基于 一 
Ruby 版 本 。 








在 前 面 的 例子 (parse_links.py) 中 ，BeautifulSoup 是 众多 




















除了 第 一 次 之 外 )，processO 还 


编写 完 这 些 代 码 ， 就 可 以 运行 并 查看 每 个 解析 器 是 如 何 处 理 








不 必须 为 下 


Web 页 面 的 





标签 中 的 所 有 链接 ( 按 字母 表 顺 序 排序 )。BeautifulSoup 和 htmlSlib 都 


可 编程 的 Web 浏览 


户 端的 最 后 一 小 节 ， 本 节 将 介 














个 为 Perl 编写 的 类 似 名 称 的 工 




















器 中 的 一 种 。 这 里 继续 使 用 这 个 解析 器 。 






































Gd \ 同 的 例子 。 这 个 例子 使 用 了 
具 )， 这 个 工具 用 来 模拟 浏览 器 ， 并 且 还 有 









































当然 ， 可 以 自行 下 








示例 9-5 显示 

















只 有 一 个 分 成 七 部 分 的 main0 函 数 。 每 





























JOR AAT Web 页 面 内 容 的 解析 














如 果 读 者 希望 自己 运行 示例 , 需要 在 自己 的 系统 上 同时 安装 Mechanize 和 BeautifulSoup。 
载 安装 ， 也 可 以 使 用 easy. install 或 pip 这 样 的 工具 安装 。 
了 mech.py 这 个 脚本 ， Ee GIAO 的 脚本 。 其 中 没有 类 或 函数 ， 
部 分 浏览 特定 Web 站 点 的 一 个 页 面 ， 这 个 特定 站 点 
这 个 站 点 是 因为 这 个 页 面 不 会 更 改 〈 若 想 文 持 新 的 


是 2011 年 PyCon 会 议 的 Web 站 点 。 选 择 这 











会 议 站 点 ， 需 要 修改 代码 )。 











电子 邮件 服务 ， 
其 



































如 果 对 示例 代码 进行 修改 ， 则 可 以 ) 
以 订阅 经 常 访问 的 技术 新 闻 或 博客 站 点 。 
[ 作 原 理 并 很 容易 修改 示例 代码 ， 让 其 在 划 


















































他 





也 方 也 可 以 工作 。 





本 例 处 理 许多 Web 站 点 ， 例 如 ， 登 录 
通过 阅读 mech.py 代码 ， 可 以 了 解 





基于 Web 的 
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Web 开发 


示例 9-5 ”可 以 编程 的 Web 浏览 方式 (mech.py) 





在 这 个 类 似 批 处 理 的 脚本 中 ， 使 用 Mechanize 这 个 第 三 方 工具 来 浏览 Pycon 2011 Web 站 点 ， 用 男 一 个 非 标准 
库 的 工具 BeautifulSoup 进行 解析 。 

1 #!/usr/bin/env python 

2 

3 from BeautifulSoup import BeautifulSoup, SoupStrainer 

4 from mechanize import Browser 

5 

6 br - Browser() 

7 

8  # home page 

9 rsp = br.openC'http://us.pycon.org/2011/home/') 

10 print '\n***', rsp.geturl() 

ll print "Confirm home page has 'Log in' link; click it" 

12 page = rsp.readQ) 

13 assert 'Log in' in page, ‘Log in not in page' 

14 rsp = br.follow_link(text_regex='Log in') 

15 

16 # login page 

17 print '\n***', rsp.geturl(O) 

18 print 'Confirm at least a login form; submit invalid creds' 

19 assert len(list(br.forms())) > 1, 'no forms on this page' 

20 br.select form(nr-0) 

21 br.form['username'] = 'xxx' # wrong login 

22 br.form['password'] = 'xxx' # wrong passwd 

23 rsp = br.submit() 

24 

25 # login page, with error 

26 print '\n***', rsp.geturl() 

27 print 'Error due to invalid creds; resubmit w/valid creds' 

28 assert rsp.geturl() == 'http://us.pycon.org/2011/account/login/', 

rsp.geturl() 

29 page = rsp.read() 

30 err = str(BS(page).find("div", 

31 {"id": "errorMsg"J).find('ul').find('li').string) 

32 assert err == 'The username and/or password you specified are not cor- 

rect.', err 

33 br.select form(nr-0) 

34 br.form['username'] = YOUR LOGIN 

35 br.form['password'] = YOUR PASSWD 

36 rsp = br.submitQ 

37 

38 # login successful, home page redirect 

39 print '\n***', rsp.geturl() 

40 print 'Logged in properly on home page; click Account link' 

41 assert rsp.geturl() == 'http://us.pycon.org/2011/home/', rsp.geturl() 

42 page - rsp.read() 

43 assert 'Logout' in page, 'Logout not in page' 

44 rsp = br.follow link(text regex-'Account') 

45 

46 # account page 

47 print '\n***', rsp.geturl(Q) 

48 print 'Email address parseable on Account page; go back' 

49 assert rsp.geturl() == 'http://us.pycon.org/2011/account/email/', 



































rsp.geturl() 
































67 
68 


逐 行 解释 


第 1~6 行 


这 个 脚本 非 


page = 


assert 'Email Addresses' in page, 


print 
rsp = b 


# back 
print ' 


rsp.read() 
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'Missing email addr 


Primary e-mail: %r' % str( 
BS(page) .find('table').find('tr').find(C' td').find('b').string) 


r.back( 


to home page 
\n*** ' ; 


rsp.geturl() 


esses' 


print 'Back works, on home page again; click Logout link' 
assert rsp.geturl() == 'http://us.pycon.org/2011/home/', rsp.geturl() 
rsp = br.follow link(url. regex-'logout') 


# logou 
print ' 


t page 
Mnt ' ; 


rsp.geturl(O 


print 'Confirm on Logout page and Log in link at the top' 
assert rsp.geturl() == 'http://us.pycon.org/2011/account/logout/', 
rsp.geturl() 


page = 


rsp.read() 


assert 'Log in' in page, ‘Log in not in page' 


print ' 


RL, Ate 


rf [HJ 


\n*** DONE' 














Mechanize.Browser 和 BeautifulSoup.BeautifulSoup 25. 
第 8 一 14 行 


















































































































































单 。 实 际 上 ， 没 有 使 用 任何 标准 库 中 的 包 或 模块 ， 所 以 这 里 仅仅 导入 了 











首先 访问 的 是 PyCon 2011 站 点 的 主页 面 。 将 URL 显示 给 用 户 ， 用 于 确认 〈 第 10 3 。 
注意 ， 这 是 访问 的 最 终 URL， 因 为 原来 的 链接 可 能 会 将 用 户 重 定向 到 其 他 地 方 。 这 一 节 的 最 
后 一 部 分 (第 12—14 行 ) 通过 查看 是 否 含有 “Log in” 链 接 来 判断 用 户 是 否 已 经 登录 。 

€ 16—23 íF 

一 旦 确认 了 位 于 登录 页 面 ( 这 个 页 面 至 少 有 一 个 表单 )， 选择 第 一 个 (也 是 唯一 一 个 ) 表 
单 ， 填 写 验证 匿名 字段 (但 除非 登录 名 和 密码 都 是 'xxx')， 并 提交 。 

$& 25—36 íF 

如 果 在 登录 页 面 遇 到 登录 错误 (第 28~32 行 )， 需 要 用 正确 的 凭证 信息 (提交 正确 的 用 














户 名 和 密码 ) 来 重新 提交 。 
第 38—44 íF 





一 旦 成 功 进行 了 验证 , 就 会 返回 





主页 面 。 这 是 通过 检查 














日 
ER 


























41—43 行 ， 如 果 没 有 这 个 链接 ， 就 没有 成 功 登 录 )。 接 着 单 击 Account 链接 。 
第 46—54 43 











必须 使 ) 








El 
AE 
^ 








A 








|J 


址 表格 ， 选 取 第 





行 的 多 


P 


个 单元 格 G 





电子 邮件 地 址 进行 注册 。 可 以 使 用 多 个 邮件 地 址 ， 但 
第 一 个 标签 ， 当 访问 这 个 页 面 的 Account 信息 时 ， 使 用 BeautifulSoup fi 


B 52~53 行 )。 下 一 步 是 单 击 “ 返 回 


只 能 











有 一 个 3 
PT IF SERT TER 
主页 


地 址 。 邮 但 




















T 











有 “Logout” 链 接 完成 的 (第 


di 





nu 


p 

















”按钮 来 返回 


(ee 


Hlc 
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第 56~60 行 

这 是 所 有 部 分 中 最 短 的 , 这 里 仅仅 是 确认 已 经 返回 了 主页 面 (第 59 行 ), 并 继续 跟踪 “Log 
out” 链 接 。 

第 62—68 4T 

最 后 一 部 分 确认 位 于 注销 页 面 且 没 有 登录 。 这 是 通过 检查 页 面 上 是 否 有 “Log in" BEBE 
来 完成 的 (第 66~67 行 。 

这 个 应 用 简洁 明了 地 演示 了 Mechanize.Brower 的 使 用 。 只 须 将 用 户 在 浏览 器 上 的 操作 
映射 到 正确 的 方法 调用 即 可 。 最 终 要 考 上 处 的 是 页 面 的 开发 者 是 否 会 修改 这 个 示例 所 使 用 的 
Web 页 面 ， 页 面 的 变动 会 导致 这 里 的 代码 失效 。 注意， 在 编写 本 书 时 ，Mechanize 还 没有 引 
入 Python 3。 
















































































































































































































































































总 结 


16^ SA 


这 里 总 结 了 多 种 类 型 的 Web 客户 端 。 现 在 可 以 将 注意 力 转 到 Web 服务 器 上 了 。 





























9.4 Web (HTTP) 服务 器 





到 现在 ， 本 章 已 经 讨论 了 如 何 使 用 Python 建立 Web 客户 端 并 执行 一 些 任务 帮助 Web 服 
务 器 处 理 一 些 请 求 。 从 本 章 前 面 了 解 到 了 Python 可 以 用 来 建立 简单 和 复杂 的 Web 客户 端 。 

但 还 没有 介绍 建立 Web 服务 器 , 这 是 本 节 的 重点 。 如 果 说 Google Chrome, Mozilla Firefox, 
Microsoft IE 和 Opera 浏览 器 是 最 流行 的 一 些 Web FP vig, ASA WIRES Rea FY AN Web 服务 器 
We? 这 些 包 括 Apache. ligHTTPD. Microsoft IIS, LiteSpeed Technologies LiteSpeed 和 ACME 
Laboratories thttpd。 因为 这 些 服务 器 都 远 远 超过 了 应 用 程序 的 需求 , 所 以 这 里 仅仅 使 用 Python 
建立 简单 但 有 用 的 Web 服务 器 

注意 ， 尽 管 这 些 服务 器 很 简单 且 不 是 用 于 生产 环境 的 ， 但 可 以 用 于 为 用 户 提供 开发 服务 
器 。Django 和 Google App Engine 开发 服务 器 都 基于 下 一 节 介 绍 的 BaseHTTPServer 模块 。 


9.4.1 用 Python 编写 简单 的 Web 服务 器 


要 用 到 的 所 有 基础 代码 都 在 Python 标准 库 中 。 读 者 只 须 进 行 基本 的 定制 。 要 建立 一 个 
Web 服务 器 ， 必 须 建立 一 个 基本 的 服务 器 和 一 个 “处 理 程序 ” 
基础 的 Web 服务 器 是 一 个 模板 。 其 角色 是 在 客户 端 和 服务 器 端 完成 必要 的 HTTP. 交互 。 
在 BaseHTTPServer 模块 中 可 以 找到 一 个 名 叫 HTTPServer 的 服务 器 基本 类 。 
处 理 程序 是 一 些 处 理 主 要 “Web 服务 ”的 简单 软件 。 它 用 于 处 理 客户 端的 请 求 ， 并 返回 
适当 的 文件 ， 包 括 静 态 文件 或 动态 文件 。 处 理 程序 的 复杂 性 决定 了 Web 服务 器 的 复杂 程度 。 
Python 标准 库 提供 了 3 种 不 同 的 处 理 程序 。 








































































































































































































































































































































































































i=) 





3H 


as 








Fi 4 











BaseHTTPServer 模块 























外 ， 没 有 实现 其 他 处 理工 作 ， 








服务 器 的 出 现 。 


SimpleHTTPServer 模块 


























因此 必须 











第 9 章 


的 是 名 为 BaseHTTPResquestHandler 的 处 理 程序 ， 
找到 ， 其 中 含有 一 个 的 基本 Web 服务 器 。 除 了 获得 客户 端的 请 求 
自己 完成 其 他 
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它 可 以 在 

















处 理 任务 ， 这 样 就 导致 了 myhttpd.py 


的 SimpleHTTPRequestHandler， 建 立 在 BaseHTTPResquestHandler 


的 基础 上 ， 以 非常 直接 的 形式 实现 了 标准 的 GET 和 HEAD 请 求 。 这 











i=) 


取 


























程序 可 以 获取 SimpleHTTPRequestHandler, J 











CGI 脚本 完成 请 求 处 到 


























已 经 可 以 完成 一 些 简单 的 功能 。 
Ja, #4 CGIHTTPServer 模块 中 的 CGIHTTPRequestHandler 处 理 程序 ， 这 个 处 理 
添加 了 对 POST i 





过 程 ， 也 可 以 将 生成 的 HTML 脚本 返回 





FE 
H 


然 还 不 算 完 美 ， 但 它 





Hi 











TH 















































# 求 的 支持 。 其 可 以 调用 
给 客户 端 。 本章 只 会 介绍 


CGI 处 理 服 务 器 ， 下 一 章 将 介绍 为 什么 不 应 继续 在 Web 中 使 用 CGI， 不 过 依然 需要 了 解 








为 了 简化 用 户 体 验 、 提 高 一 致 性 和 降低 代码 维护 开销 ， 这 些 模 块 ( 实 际 上 是 其 中 的 类 ) 














组 合 到 单个 名 为 server.py 的 模块 中 ,作为 Python 3 ! 





















































http 包 中 的 一 部 分 。( 类 似 地 ，Python 2 












































的 httplib CHTTP 客户 端 ) 模块 在 Python 3 中 重 命名 为 http.client。) 表 9-6 总 结 了 这 3 个 模块 
及 其 对 应 的 子 类 ， 以 及 Python 3 中 http.server 包 下 的 内 容 。 
表 9-6 Web 服务 器 模块 和 类 
mR fü 述 
BaseHTTPServer^ 提供 基本 的 Web 服务 器 和 处 理 程序 类 ， 分 别 是 HTTPServer 和 BaseHTTPRequestHandler 
SimpleHTTPServer^ 含有 SimpleHTTPRequestHandler 类 ， 用 于 处 理 GET 和 HEAD 请 求 
CGIHTTPServer” 含有 CGIHTTPRequestHandler 类 ， 用 于 处 理 POST 请 求 并 执行 CGI 


























http.server^ 


(D Python 3.0 中 移 除 。 





@ Python 3.0 中 新 增 。 








前 面 的 三 个 Python 2 模块 和 类 整合 至 





实现 一 个 简单 的 基础 Web 服务 器 











为 了 理解 在 SimpleHTTPServer 和 CGIHTTPServer 模块 


























作 的 ， 这 里 





可 以 工作 的 Web 服务 器 的 代码 一 一 myhttpd.py。 











这 个 月 


在 基础 服务 器 接收 至 














导 “/”)， 如 果 一 切 正 常 ， 将 会 返回 
页 面 传 给 用 户 (第 13 行 )， 否 则 将 会 返回 











一 个 Python 3 包 中 























的 











将 对 BaseHTTPRequestHandler 实现 简单 的 GET 处 理 功 能 。 

































































他 高 级 处 理 程 


序 是 如 何 工 
示例 9-6 展示 了 一 个 











R 务 器 派生 自 BaseHTTPRequestHandler， 只 包含 一 个 do_GET0O 方 法 (第 6~7 行 )， 
































| GET 请 求 时 调用 该 方法 。 在 第 9 行 尝 试 打开 客户 端 传 来 的 路 径 ( 移 除 前 
“OK” 状 态 (200)， 并 通过 wfile 管道 将 用 于 下 载 的 Web 
404 状态 CES 15—17 13. 
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示例 9-6 简单 的 Web 服务 器 (myhttpd.py) 


这 个 简单 的 web 服务 器 可 以 读 取 GET 请 求 ， 获 取 web 页 
BaseHTTPServer 中 的 BaseHTTPRequestHandler， 并 实现 了 do GET 0 方法 来 启用 对 GET 请 求 的 处 理 。 














| C.html 文件 )， 并 将 其 返回 给 调 | 























j 省 






































#!/usr/bin/env python 





1 

2 

3 from BaseHTTPServer import \ 

4 BaseHTTPRequestHandler, HTTPServer 

5 

6 class MyHandler(BaseHTTPRequestHandler): 

7 def do GET(self): 

8 try: 

9 f = open(self.path[1:], 'r') 

10 self.send response(200) 

11 self.send header('Content-type', 'text/html') 
12 self.end headers() 

13 self.wfile.write(f.read()) 

14 f.close() 

15 except IOError: 

16 self.send error(404, 

17 "File Not Found: %s' % self.path) 
18 

19 def main): 

20 try: 

21 server = HTTPServer(('', 80), MyHandler) 
22 print 'Welcome to the machine..." 

23 print 'Press ^C once or twice to quit." 
24 server.serve forever() 

25 except KeyboardInterrupt: 

26 print 'AC received, shutting down server' 
27 server.socket.close() 

28 

29 if name == ' main ': 

30 main() 





户 。 使 




















main() 函 数 只 是 简单 地 将 Web 服务 器 类 实例 化 ,然后 启动 并 进入 永 不 停息 的 服务 器 循环 ， 


人 











会 发 现 服务 器 会 显示 出 一 些 类 似 这 样 的 登录 输出 。 


# myhttpd.py 





Welcome to the machine... Press ^C once or twice to quit 

localhost - - [26/Aug/2000 03:01:35] "GET /index.html HTTP/1.0" 200 - 
localhost - - [26/Aug/2000 03:01:29] code 404, message File Not Found: 
x.html 

localhost - - [26/Aug/2000 03:01:29] "GET /dummy.html HTTP/1.0" 404 - 
localhost - - [26/Aug/2000 03:02:03] "GET /hotlist.htm HTTP/1.0" 200 - 


当然 ， 这 个 小 Web 服务 器 太 简 单 了 ， 甚 至 不 能 处 理 普通 的 文本 文件 。 这 些 功能 
《参见 本 章 末尾 的 练习 9-10). 


= 





贸 给 读 


问 并 运行 这 个 服务 器 ， 就 


者 





功能 更 强大 ， 代 码 更 少 : 








前 面 那个 例子 太 脆 弱 了 ，BaseHTTPServer 非常 
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iX b, fH] SimpleHTTPServer, 提供 
这 两 个 方法 ， 就 像 在 BaseHTTPServer ! 



































do_HEADO 和 do_GET0O 方 法 
通过 这 些 便利 的 工具 ， 可 以 使 ) 
了 ， 甚 至 苦恼 如 何 ; 
机 上 打出 这 些 代码 )。 


二 外 ， 

































































, 








#!/usr/bin/env python 
CGIHTTPServer 


0 


import 
CGIHTTPServer.test 














注意 ,这 里 不 检测 是 否 应 该 退出 服务 器 ， 而 是 让 
结果 太 多 时 ， 使 用 Ctrl+C 快捷 键 或 其 他 方式 退出 。 











Dd 
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b 样 。 
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一 个 简单 的 CGI Web 服务 器 

















1， 它 不 能 处 理 
了 do_HEADO 和 do_GET0O 方 法 ， 所 以 无 须 
TEST 
标准 库 中 提供 的 最 高 层次 〈 姑 且 相 信和 是 最 高 
它 还 定义 了 do_POSTO 方 法 ， 
两 行 代码 创建 一 个 支持 CGI 的 开发 服务 器 (这 段 代 码 太 短 








高 层次 ) 服务 器 是 CGIHTTPServer。 
可 以 用 于 处 














CGI 请 求 。 在 更 高 层 
自行 创建 























除了 
表单 数 





=] 


i o 








H 
== 














各 其 作为 一 个 代码 示例 添加 到 本 章 中 ， 因 









































j 户 在 CGIHTTPServer.test() PK Z9 4j H 
只 须 在 Shell PIAA 





为 读者 可 以 直接 在 自己 的 计算 





HE 








日 这 个 脚本 就 会 启动 服 





务 器 。 下 面 就 是 在 Windows 上 运行 这 段 代 码 的 示例 ， 其 与 在 POSIX 机 器 上 的 方式 类 似 。 














C:\py>python cgihttpd.py 


Serving HTTP on 0.0.0.0 port 8000 ... 











默认 的 8000 端口 启 月 





这 条 命令 在 


变 默 认 端 口 )。 


C:\py\>python cgihttpd.py 8080 


Serving HTTP on 0.0.0.0 port 8080 ... 


服务 器 (可 以 在 运行 时 通过 














为 了 i 
Python 脚本 )。 在 测试 这 个 简单 的 
额外 的 事情 。 第 10 章 将 介绍 如 何 编写 

正如 你 所 看 到 的 一 样 ， 建 立 一 个 Web 月 
间 。 一 般 来 说 ， 现 在 是 
发 时 只 用 于 创建 服务 器 ， 与 使 有 
和 从 效率 考虑 ， 真 正 的 服务 应 该 
节 起 始 处 列 出 的 其 他 服务 器 。 但 这 里 


9.5 “相关 模块 





行 测试 ， 只 




































































È 














EH 




















民 务 器 并 








HITA Web 框架 或 应 








在 纯 
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令 行 提供 其 

















他 端口 
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须 查看 在 源码 文件 相同 目录 下 是 否 存在 cgi-bin 文件 夹 (以 及 一 些 CGI 
脚本 时 ， 无 须 设 置 Apache. CGI 处 到 
写 CGI 脚本 ， 同 时 也 会 介绍 为 什么 不 应 该 使 月 





以 及 其 他 
H CGI. 





ERE FF Bil 28 

















运行 并 不 会 花 太 多 


于 





E Python 脚本! 

















在 创建 一 个 运行 在 Web 服务 器 上 的 Web 应 用 。 














JEX. 

















K 9-7 Fij 的 对 Web J 

















于 发 有 月 





的 模块 ， 


是 想 说 明 通过 Python 可 以 简化 复杂 的 寻 


这 些 模 块 对 Web 应 月 





这 些 服务 器 模块 在 开 





肯 更 有 效率 的 服务 器 ， 如 Apache、1ligHTTPD， 或 本 


E 
Ho 
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昌都 是 有 用 
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表 9-7 Web 编程 相关 模块 
模块 / 包 Hox 
Web 应 用 程序 
cgi 从 标准 网 关 接口 (CGI) 获取 数据 
cgitb^ 处 理 CGI 返回 数据 
htmllib 老 HTML 解析 器 ， 用 于 解析 简单 的 HTML 文件 ，HTML-Parser 类 扩展 自 sgmllib.SGMLParser 
HTMLparser HY HTML, XHTML 解析 器 ， 不 基于 SGML 
htmlentitydefs 一 些 HTML 普通 实体 定义 
Cookie 于 HTTP 状态 管理 的 服务 器 端 cookie 
cookielib HTTP 客户 端的 cookie 处 理 类 
webbrowser” 控制 器 :向 浏览 器 加 载 Web 文档 
sgmllib 解析 简单 的 SGML 文件 
robotparser” 解析 robots.txt 文件 ， 对 URL 做 “可 获得 性 ”分 析 
httplib^ 来 创建 HTTP 客户 端 
urllib 通过 URL 或 相关 工具 访问 服务 器 ， 在 Python 3 中 ，urllib.urlopen0 被 urllib2.urlopenO 蔡 换 ， 以 

















urllib.requesturlopenO 的 形式 调 






























































































































































































































































urllib2; urllib.request 、 于 打开 URL 的 类 和 函数 ， 在 Python 3 中 位 于 两 个 子 包 中 
urllib.error 

urlparse, urllib.parse^ 于 解析 URL 字符 串 的 工具 ， 在 Python 3 中 重 命名 为 urllib.parse 
XML 处 理 

xmllib 原来 的 简单 XML 解析 器 (已 废弃 ) 

xml” 包含 许多 不 同 解析 器 的 XML 包 ( 见 下 文 ) 

xmlsax 简单 的 API， 适 用 于 兼容 SAX2 的 XML(SAX) 解 析 器 

xmldom 文档 对 象 模型 (DOM) XML 解析 器 

xml.etree^ 树 形 的 XML 解析 器 ， 基 于 Element 灵活 容器 对 象 

xml parsers.expat” 非 验证 型 Expat XML 解析 器 的 接 

xmlrpclib” 通过 HTTP 提供 XML 远程 过 程 调用 (RPC) 客户 端 
SimpleXMLRPCServer^ | Python XML-RPC 服务 器 的 基本 框架 

DocXMLRPCServer 描述 XML-RPC 服务 器 的 框架 

Web 服务 器 

BaseHTTPServer 来 开发 Web 服务 器 的 抽象 类 

SimpleHTTPServer 处 理 最 简单 的 HTTP 请 求 CHEAD 和 GET) 

CGIHTTPServer MM ECR SimpleHTTPServers 一 样 处 理 Web 文件 ， 还 能 处 理 CGI (HTTP POST) 请 求 





http.server” 





Python 3 中 一 个 新 的 包 名 ,合并 了 Python 2 的 BaseHTTPServer. SimpleHTTPServer fil CGIHTTPServer 





模块 





iuh. I 08) 
wsgiref 























程序 间 标 准 所 














定义 Web 服务 器 和 Python Web 应 


的 包 


BIS Web 客户 端 和 服务 器 341 

















































































































(BER) 
模块 / 包 fü $ 
第 三 方 开发 包 〈 非 标准 库 ) 
HTMLgen 协助 CGI 把 Python 对 象 转换 成 可 用 的 HTML Chttp://starship.python.net/crew/friedrich/HTML gen/ 
html/main.html) 
BeautifulSoup HTML. XML 解析 器 及 转换 器 
Chttp://crummy.com/software/BeautifulSoup ) 
Mechanize 基于 万 维 网 的 Web 浏览 包 
Chttp://wwwsearch.sourceforge.net/mechanize/ ) 
(D Python 1.6 中 新 增 。 
@ Python 2.0 中 新 增 。 
@ Python 2.2 中 新 增 。 
@ Python 2.3 中 新 增 。 
@ Python 2.4 中 新 增 。 
@ Python 2.5 中 新 增 。 
@ Python 3.5 中 新 增 。 
9.6 练习 
9-1 urllib 模块 。 编 写 一 个 程序 ， 接 受 一 个 用 户 输入 的 URL (或 者 是 一 个 Web 页 面 或 者 是 
一 个 FTP 文件 ， 例 如 ，http://python.org 或 ftp://ftp.python.org/pub/python/README)， 
然后 将 其 下 载 到 本 地 ， 以 相同 的 文件 名 命名 (如 果 你 的 系统 不 支持 ， 也 可 以 把 它 改 成 
和 原文 件 相似 的 名 字 )。Web 页 面 (HTTP) 应 另存 为 .htm 或 .html 文件 ， 而 FTP 文件 
应 保持 其 扩展 名 。 
9-2 urllib 模块 。 重 写 示 例 11-4 的 grabWeb.py 脚本 ， 这 个 脚本 会 下 载 一 个 Web Tih, 


9-3 























并 显示 生成 的 HTML 文件 的 第 一 个 和 最 后 一 个 非 空白 行 的 文本 ， 应 使 用 urlopen0 
来 代 蔡 urlretrieveO 直 接 处 理 数据 〈 这 样 就 不 必 先 下 载 所 有 文件 再 处 理 它 了 )。 
URL 和 正则 表达 式 。 你 的 浏览 器 也 许 会 保存 你 最 喜欢 的 Web 站 点 的 URL， 以 “ 书 
A 3X] HTML ae (Mozilla 发 布 的 浏览 器 就 是 如 此 ) 或 者 以 “收藏 来” 里 一 组 .url 
文件 (EE 即 是 如 此 〉 的 形式 保存 。 查 看 你 的 浏览 器 记录 “热门 链接 ”的 办 法 ， 并 
定位 其 位 置 和 存储 方式 。 不 更 改 任何 文件 , 剔除 对 应 Web 站 点 (如果 给 定 ) 的 URL 
和 和 名字, 生成 一 个 以 名 字 和 链接 作为 输出 的 双 列 列表 , 并 把 这 些 数据 保存 到 硬盘 文 
件 中 。 截 取 站 点 名 和 URL， 确 保 每 一 行 的 输出 不 超过 80 个 字符 。 
URL, urllib 模块 、 异 常 和 正则 表达 式 。 作 为 对 上 一 个 问题 的 延伸 ， 为 脚本 增加 代 
码 来 测试 收藏 的 链接 。 记 录 下 无 效 链接 〈 及 其 名 字 )， 包 括 无 效 的 Web 站 点 和 已 经 
删除 的 Web 页面 。 只 输出 并 在 磁盘 中 保存 那些 依然 有 效 的 链接 。 
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其 管理 员 ) 一 般 必须 维护 一 个 访问 日 志文 件 (在 Web 的 主 服 务 器 目录 中 通常 是 

















练习 9-5 一 练习 9-8 适用 于 Web 服务 器 访问 日 志文 件 和 正则 表达 式 。Web 服务 器 (及 






























































logs/access_log 文件 )， 用 于 跟踪 请 求 。 在 一 段 时 间 内 ， 这 些 文件 会 变 得 很 大 ， 需 要 存储 
起 来 或 截断 .思考 一 下 为 什么 不 只 保存 相关 的 信息 , 而 删除 文件 本 身 以 节省 磁盘 空间 呢 ? 



















































































下 面 的 这 些 练习 通过 正则 表达 式 来 归档 和 分 析 Web 服务 器 数据 。 


9-5 
9-6 


9-7 


9-8 


9-9 


9-10 


9-11 


9-12 


9-13 


9-14 





计算 日 志文 件 中 有 多 少 种 请 求 (GET 5 POS). 

统计 成 功 下 载 的 页 面 /数据 : 显示 所 有 返回 值 为 200 “OK， 即 没有 错误 发 生 〉 的 链 
接 ， 以 及 每 个 链接 被 访问 的 次 数 。 

统计 错误 : 显示 所 有 产生 错误 的 链接 〈 返 
问 的 次 数 。 

跟踪 IP 地 址 : 对 于 每 个 人 P 地 址 ， 输 出 每 个 页 面 /数据 下 载 情 况 的 列表 ， 以 及 这 些 链 
接 被 访问 的 次 数 。 

Web 浏览 器 Cookie 和 Web 站 点 注册 。Core Python Programming 或 者 Core Python 
LanguageFundamentals 的 第 7、9、13 章 都 涉及 了 用 户 登 录 注 册 数 据 库 ， 这 几 章 ! 
创建 了 基于 纯 广 本、 表单 驱动 的 脚本 。 将 其 移植 到 Web 中 ， 可 以 使 用 用 户 名 -密码 
言 息 来 注册 Web 站 点 。 

选 做 题 ， 想 办 法 让 自己 熟悉 Web 浏览 器 cookie， 并 在 登录 成 功 后 将 会 话 保 持 4 个 
小 时 。 
创建 Web JR 4-35 . 7B 9-6 中 的 myhttpd.py 代码 只 能 读 取 HTML 文件 并 将 其 返回 

主 调 客户 端 。 请 添加 对 以 “.txt” 结 尾 的 纯 文 本 文件 的 支持 。 确 保 返 回 正确 的 MIME 

类 型 的 “text/plain”。 选 做 题 ， 添 加 对 以 “.jpg” 及 “.jpeg” 结 束 的 JPEG 文件 的 支 

持 ， 并 返回 MIME 类 型 的 “image/jpeg”。 
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值 为 400 或 500)， 以 及 每 个 链接 被 访 












































































































































































































































练习 9-11 一 练习 9-14 需要 更 新 示例 9-3 中 的 crawl.py 这 个 Web IER. 

Web 客户 端 。 移 植 crawler.py， 使 它 使 用 HTMLParser、BeautifulSoup、html5lib 或 
lxml 解析 系统 。 

Web 客户 端 。 作 为 crawl.py 的 输入 的 URL 必须 以 “http:/” 协 议 指示 符 开 头 ， 项 
级 URL 必须 包含 一 个 反 斜 线 ， 例 如 :http:/www.prenhallprofessional.com/。 加 强 
crawl.py 的 功能 ， 人 允许 用 户 只 输入 主机 名 (没有 协议 部 分 , 假设 它 是 HTTP), rfi 
和 斜 线 是 可 选 的 。 例 如 : www.prenhallprofessional.com 应 该 是 可 接受 的 输入 形式 。 
Web 客户 端 。 更 新 crawl.py 脚本 ,使 其 可 以 使 用 “ftp: ”形式 的 链接 下 载 。crawl.py 
会 忽略 所 有 “mailto:” 形 式 的 链接 。 添 加 功能 ， 使 其 忽略 “telnet:”、“news:”、 
“gopher:” 以 及 “about:” 链 接 。 

Web 客户 端 。crawl.py 脚本 仅 从 相同 站 点 内 的 Web 页 面 中 找到 链接 ， 下 载 .html 文 
件 ， 不 会 处 理 / 保 存 图 片 这 类 对 页 面 同样 有 意义 的 “文件 ”>。 对 于 那些 允许 URL SA 

























































































9-15 


9-16 
9-17 


9-18 


9-19 


9-20 


9-21 
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少 末 端 斜 线 O 的 服务 器 ， 这 个 脚本 也 不 能 处 理 。 给 crawlpy 增添 两 个 类 来 解决 
这 些 问题 。 

第 一 个 是 My404UrlOpener 类 这 是 urllib.FancyURLOpener 的 子 类 , 仅 包含 一 个 方 
iX, http error 4040， 用 该 方法 来 判断 收 到 的 404 错误 中 是 不 是 包含 缺少 末端 斜 线 
的 URL。 如 果 缺 少 ， 就 添加 斜 线 并 重新 请 求 〈 仅 重新 请 求 一 次 )。 如 果 仍 然 失 败 ， 
才 返 回 一 个 真正 的 404 错误 。 必须 用 该 类 的 一 个 实例 来 设置 urllib._urlopener, 这 样 
urllib 才能 使 用 它 。 

另 一 个 类 LinkImageParser 派生 自 htmllib.HTMLParser。 这 个 类 应 有 一 个 用 来 调用 
基 类 构造 函数 的 构造 函数 ， 并 且 初 始 化 一 个 列表 用 来 保存 从 Web 页 面 中 解析 出 的 
图 片 文件 。 应 重 写 handle_image() 方 法 ， 把 图 片 文件 名 添加 到 图 片 列表 中 (这 样 就 
不 会 像 现在 的 基 类 方法 那样 丢弃 它们 了 )。 
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最 后 一 组 练习 针对 parse. link.py 文件 ， 该 文件 见 本 章 前 面 的 示例 9-4。 
命令 行 参数 。 添 加 命令 行 参 数 ， 让 用 户 可 以 选择 显示 一 个 或 多 个 解析 器 的 输出 结 
果 《 而 不 是 显示 所 有 结果 ， 可 以 将 默认 情况 设 定 为 显示 所 有 结果 )。 

lxml 解析 器 。 下 载 并 安装 Ixm, [n] parse_links.py 添加 对 Ixml 的 支持 。 

Markup 解析 器 。 将 爬 网 程序 中 的 htmllib.HTMLParser 替换 成 Markup 解析 器 。 

a) HTMLParser.HTMLParser 

b) htm151ib 












































C) BeaufifulSoup 














d) 1xml 
重 构 。 改 变 output0) 函 数 ， 让 其 支持 其 他 形式 的 输出 。 
a) 写 入 文件 。 





b) 发 送 至 男 一 个 进程 ( 即 写 入 套 接 字 )。 

Python 风格 编程 。 在 parse_links.py 的 逐 行 解释 中 ， 将 simpleBSO 从 较为 难 理解 的 
单行 版 本 转 成 了 多 行 版 本 。 对 fasterBSO 和 html5libparser() 做 相同 的 事情 。 

性 能 与 分 析 。 前 面 描述 了 fasterBSO 为 什么 比 simpleBSO 运 行 得 更 好 。 用 timeit T 
有 具 证 明 其 运行 速度 更 快 ， 并 找到 一 款 Python 内 存 工 具 ， 实 时 发 现 其 更 节省 内 存 。 
首 述 哪 一 球 内 存 分 析 工 具 可 以 做 到 这 一 点 , 以 及 在 哪里 发 现 了 这 款 工 具 。 三 种 标准 
库 中 的 分 析 工 具 (profile、hotshot、cProfile) 是 否 可 以 显示 内 存 使 用 信息 ? 

更 好 的 练习 。 在 htmlparser() 中 ， 假 设 不 想 创建 一 个 空 列表 并 重复 调用 append() 
方法 来 构建 列表 ， 而 是 想 通 过 下 面 的 单行 代码 使 用 列表 推导 式 蔡 换 第 35—39 行 
的 内 容 。 


self.data = [v for k, v in attrs if k -- 'href'] 
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这 种 替换 是 否 正 确 ? 换 句 话说 ， 蔡 换 了 后 是 否 能 正确 执行 ? 为 什么 ? 

9-22 ”数据 操作 。 在 parse links.py 中 ， 按 字母 顺序 对 URL 排序 (实际 上 是 词典 顺序 )。 
但 这 样 并 不 是 正确 组 织 链接 的 方式 : 

http://python.org/psf/ 
















































































http://python.org/search 
http://roundup.sourceforge.net/ 
http://sourceforge.net/projects/mysql-python 
http://twistedmatrix.com/trac/ 
http://wiki.python.org/moin/ 
http://wiki.python.org/moin/CgiScripts 
http://www.python.org/ 

















相反 ， 根 据 域 名 进行 排序 可 能 更 加 合理 
http://python.org/psf/ 





ho 


http://python.org/search 

http://wiki.python.org/moin/ 
http://wiki.python.org/moin/CgiScripts 
http://www.python.org/ 

http://roundup.sourceforge.net/ 
http://sourceforge.net/projects/mysql-python 
http://twistedmatrix.com/trac/ 

修改 代码 ， 让 其 可 以 在 按 字母 顺序 排序 后 再 按 域 名 排序 。 
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WSGI 主要 有 利于 Web 框架 和 Web 服务 器 的 作者 ， 不 是 Web 应 用 的 作者 。WSGI 不 是 
一 个 应 用 程序 API， 而 是 框架 与 服务 器 之 间 的 粘 合 API 





一 一 Phillip J. Eby, 2004 年 8 月 


本 章 内 容 : 
。 简介 ; 

。 帮助 Web 服务 器 处 理 客户 端 数据 ; 
。 构建 CGI 应 用 程序 ; 

e 在 CGI 中 使 用 Unicode; 

e =i% CGI; 

。 WSGI 简介 ; 

。 真实 世界 的 Web 开发 ; 

。 相关 模块 。 
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10.1 简介 














本 章 是 Web 编程 方面 的 入 门 章节 ， 将 对 Python 网 络 编程 做 快速 而 广泛 的 概述 ， 从 Web 
浏览 到 创建 用 户 反馈 表单 ， 从 识别 URL 到 生成 动态 Web 页 面 。 本 章 首先 介绍 通用 网 关 接 口 
(Common Gateway Interface CGI)， 接 着 讨论 Web 服务 器 网 关 接 口 CWeb Server Gateway 
Interface, WSGD. 


10.2 ”帮助 Web 服务 器 处 理 客户 端 数据 


本 节 将 介绍 CGI， 包 括 CGI 的 含义 、 出 现 原因 ， 以 及 与 Web 服务 器 的 工作 方式 ， 接 着 介 
如 何 使 用 Python 创建 CGI 应 用 。 


10.2.1 CGI 简介 


Web 最 初 目的 是 在 全 球 范围 内 对 文档 进行 在 线 存储 和 归档 
些 文件 通常 用 静态 文本 表示 ， 一 般 是 HTML. 

HTML 是 一 个 文本 排版 工具 ， 而 不 像 是 一 种 语言 ， 可 用 于 指明 字体 的 类 型 、 大 小 、 样 式 。 
HTML 的 主要 特性 是 其 超 文 本 的 兼容 性 ， 如 突出 显示 标明 一 些 文本 ， 或 用 图 形 元 素 作 为 链接 ， 
指向 其 他 本 地 文档 或 位 于 网 上 其 他 地 方 的 文档 。 这 样 就 可 以 通过 鼠标 单 击 或 者 其 他 用 户 选 择机 制 
来 访问 相关 文档 。 这 些 静态 HTML 文档 位 于 Web 服务 器 上 ， 在 需要 的 时 候 会 被 发 送 到 客户 端 。 
随 着 因特网 和 Web 服务 的 发 展 ， 除 了 浏览 之 外 ， 还 需要 处 理 用 户 的 输入 。 如 在 线 零售 商 
需要 处 理 单个 订单 ， 网 上 银行 和 搜索 引擎 需要 为 每 个 用 户 建立 独立 账号 。 因 此 出 现 了 表单 ， 
它们 成 为 Web 站 点 从 用 户 获得 特定 信息 的 唯一 形式 (在 Java. applet 出 现 之 前 )。 反 过 来 ， 在 
客户 提交 了 特定 数据 后 ， 就 要 求 立即 生成 HTML 页 面 。 

现在 Web 服务 器 仅 有 一 点 做 得 很 不 错 ， 即 了 解 用 户 需 要 哪个 文件 ， 接 着 将 这 个 文件 ( 即 
HTML 文件 ) 发 送 给 客户 端 。Web 服务 器 不 能 处 理 表单 中 传递 过 来 的 用 户 相 关 的 数据 。 这 不 
是 Web 服务 器 的 职责 ，Web 服务 器 将 这 些 请 求 发 送 给 外 部 应 用 , 将 这 些 外 部 应 用 动态 生成 的 
HTML 页 面 发 送 回 客 户 端 。 

处 理 过 程 的 第 一 步 是 Web 服务 器 从 客户 端 接 到 了 请 求 〈 即 GET 或 者 POST)， 并 调用 相 
应 的 应 用 程序 。 它 然后 等 待 ATML 页面， 与 此 同时 ， 客 户 端 也 在 等 待 。 一 旦 应 用 程序 处 理 完 
成 ， 它 会 将 生成 的 动态 HTML 页 面 返回 服务 器 端 ， 然 后 服务 器 端 再 将 这 个 最 终结 果 返 回 给 用 
户 。 对 于 表单 处 理 过 程 ， 服 务 器 与 外 部 应 用 程序 交互 ， 收 到 并 将 生成 的 HTML 页 面 通过 CGI 
返回 客户 端 。 图 10-1 描述 了 CGI 的 工作 原理 ， 其 中 逐步 展示 了 用 户 从 提交 表单 到 返回 最 终 
结果 Web 页 面 的 整个 执行 过 程 和 数据 流向 。 
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大 多 用 于 教学 和 科 丰 


NM 


。 这 
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or Web 浏 览 器 (客户 端 Web 服 务 器 


yy 

















图 10-1 CGI 工作 方式 概览 。 
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CGI 应 用 程序 


CGI 


CGIHFUT NF 


























CGI 在 Web 服务 器 和 应 用 之 间 充 当 了 交互 作 | 





， 这 样 才能 够 处 理 用 

















生成 并 返回 最 终 的 动态 HTML 页 




















户 表单 ， 














客户 端 输入 给 Web 服务 器 端的 表单 可 能 包括 处 理 过 程 和 一 些 存储 在 后 台数 据 库 中 的 表 
单 。 需 要 记 住 的 是 ， 含 有 需要 用 户 输入 项 《如 文本 框 、 单 选 按钮 等 )、Submit 按钮 、 
Web 页 面 ， 都 会 涉及 某 种 CGI 活动 。 
创建 HTML 的 CGI 应 用 程序 通常 是 用 高 级 编程 语言 来 实现 的 ， 可 以 接受 、 处 理 用 户 数 




















据 ， 向 服务 器 端 返回 HTML 页 面 。 在 接触 CGI 之 前 ， 需 要 告诫 的 是 ， 











应 用 都 不 再 使 用 CGI 了 。 












































图 片 的 














般 生 产 环境 的 Web 


由 于 CGI 有 明显 的 局 限 性 ， 以 及 限制 Web 服务 器 同时 处 理 客户 端的 数量 ， 因 此 CGI 被 
抛弃 了 。 一 些 关键 的 Web 服务 使 用 C/C++ 这 样 的 编译 语言 进行 扩展 。 如 今 Web 服务 器 典型 
的 部 件 有 Apache 和 集成 的 数据 库 访 问 部 件 (MySQL 或 者 PostgreSQL). Java (Tomcat)、PHP 
和 各 种 动态 语言 (如 Python 或 Ruby) 模块 ， 以 及 SSL/security。 然 而 ， 如 果 在 小 型 的 私人 
Web 网 站 或 者 小 组 织 的 Web 网 站 上 工作 , 就 没有 必要 使 用 这 些 用 于 关键 任务 的 强大 而 复杂 的 
Web 服务 器 。 在 开发 小 型 Web 网 站 或 为 了 测试 时 ， 可 以 使 用 CGI。 

另外 ， 现 在 出 现 了 很 多 Web 应 用 程序 开发 框架 和 内 容 管 理 系 
然而 ， 这 些 新 工具 虽然 进行 了 浓缩 和 抽象 ， 但 仍旧 遵循 着 CGI 最 初 提供 的 模式 ， 如 获取 用 户 



































































































































统 ， 这 些 工 具 淘汰 





J CGI. 











基础 。 

















cgi 模块 在 Python 中 建立 一 个 CGI NJ 


j 程 序 。 





10.2.2 CGI 应 用 程序 


CGI 应 用 程序 和 典型 的 应 用 












































程序 有 些 不 同 ， 主 要 的 区 别 在 于 输入 、 输 出 以 及 月 
































输入 的 信息 , 根据 输入 执行 相关 代码 , 并 提供 一 个 有 效 的 HTML 作为 最 终 输出 传递 给 客户 端 。 
因此 ， 为 了 开发 出 高 效 的 Web 服务 有 必要 学 习 CGI， 了 解 其 中 的 
下 一 节 将 会 介绍 使 用 


A ARE 


序 交 互 方面 。 当 一 个 CGI 脚本 局 动 后 ， 需 要 获得 用 户 提供 的 表单 数据 ， 但 这 些 数据 必须 要 

















从 Web 客户 端 才 可 以 获得 ， 而 不 是 从 服务 器 或 者 硬盘 上 获得 。 


(request). 











XX LIE AA 





[的 请 求 
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与 标准 输出 不 同 ， 这 些 输出 将 会 发 送 回 连 接 的 Web 客户 端 ， 而 不 是 发 送 到 屏幕 、GUI 
窗口 或 者 硬盘 上 。 这 些 返回 的 数据 必须 是 具有 一 系列 有 效 头 文件 的 HTML. 标签 数据 。 如 果 






























































Web 客户 端 是 浏览 器 ,由 于 浏览 


只 能 识别 有 效 的 HITP 数据 (也 就 是 MIME AF HTML), 


所 以 会 发 生 错误 《〈 且 体 一 点 ， 就 是 内 部 服务 器 错误 )。 




















最 后 ， 读 者 可 能 猜 到 了 ， 用 户 















































与 脚本 之 间 没 有 任何 交互 。 所 有 的 交互 都 将 发 生 在 Web 客 


























户 端 (基于 用 户 的 行为 )、Web 服务 器 端 和 CGI 应 用 程序 间 。 


10.2.3 cgi 模块 

















cgi 模块 中 有 个 主要 类 : FieldStorage 类 ， 其 完成 了 所 有 的 工作 。Python CGI 脚本 启动 时 
会 实例 化 这 个 类 ， 通 过 Web 服务 器 从 Web 客户 端 读 出 相关 的 用 户 信息 。 在 实例 化 完成 后 ， 














其 中 会 包含 一 个 类 似 字典 的 对 象 ， 
的 名 字 ， 而 值 则 包含 相应 的 数据 。 






































它 具 有 一 系列 的 键 值 对 。 键 就 是 通过 表单 传 入 的 表单 条 目 














这 些 值 可 以 是 以 下 三 种 对 象 之 一 。 一 是 FieldStorage 对 象 〈 实 例 )。 二 是 另 一 个 名 为 


MiniFieldStorage 类 的 类 似 实例 ， 





用 在 没有 文件 上 传 或 mulitple-part 格式 数据 的 情况 下 。 

















MiniFieldStorage 实例 只 包含 名 程 和 数据 的 键 值 对 。 最 后 ， 它 们 还 可 以 是 这 些 对 象 的 列表 。 当 
表单 中 的 某 个 字段 有 多 个 输入 值 时 就 会 产生 这 种 对 象 。 





























对 于 简单 的 Web 表单 ， 可 以 发 现 其 中 所 有 的 MiniFieldStorage 实例 。 下 边 所 有 的 例子 都 








仅 针对 这 种 普通 情况 。 
10.2.4 cgitb 模块 














前 面 已 经 提 到 ， 返 回 Web 服务 器 的 合法 响应 《将 会 转发 给 用 户 /浏览 器 ) 必须 含有 合法 






























































的 HTTP 头 和 HTML 标记 过 的 数据 。 是 否 考虑 过 在 CGI 应 用 骨 溃 时 如 何 返回 数据 呢 ? 想 一 
想 如 果 是 一 个 Python 脚本 发 生 错 误 昵 ? 对 ， 会 出 现 回溯 消息 。 那 么 回溯 的 文本 消息 是 否 会 被 














认为 是 合法 的 HTML 头 或 HTML? 






































不 会 。 








Web 服务 器 在 收 到 无 法 理解 的 响应 时 ， 会 抛弃 这 个 响应 ， 返 回 “500 错误 。500 是 一 个 
HTTP 响应 编码 ， 它 表示 发 生 了 一 个 内 部 服务 器 错误 。 一 般 是 服务 器 所 执行 的 应 用 程序 发 生 
空 














了 错误 。 此 时 在 浏览 器 中 给 出 的 提 
误 ” 或 类 似 消息 。 






































示 消 息 没 什么 用 ， 要 么 是 空白 ， 要 么 显示 “内 部 服务 器 错 























当 Python 程序 在 命令 行 或 集成 开发 环境 (IDE) 中 运行 时 ， d ELE 息 ， 
































指出 错误 发 生 的 位 置 , 在 浏览 器 ! 





序 的 回溯 信息 ， 而 不 是 “内 部 服务 器 错误 ”， 可 以 使 用 cgitb 模块 。 
为 了 启用 转 储 回溯 消息 ， 所 要 做 的 就 是 将 下 面 的 代码 插入 CGI 应 


























import cgitb 





cgitb.enable() 








` 会 显示 回溯 消息 。 若 想 在 浏览 器 中 看 到 的 是 Web 应 用 程 






























































并 进行 调用 。 

















在 本 章 的 前 半 部 分 会 有 
两 行 代码 。 这 里 先 介绍 用 笨 
器 没有 正确 处 理 请 求 后 ， 
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很 多 地 方 能 用 到 这 个 模块 。 但 在 刚 开 始 的 简单 例子 中 不 会 用 到 这 











方法 查看 并 调试 “内 部 服务 器 错 





再 添加 这 两 行 代码 。 


10.3 构建 CGI 应 用 程序 














ASE PAE Fah? 


























架 的 应 用 。 





] 。 即 从 一 个 简单 的 脚本 开始 ， 逐 步 添加 内 容 。 这 和 


10.3.1 构建 Web 服务 器 






































为 了 用 Python 进行 CGI 开发 ， 首 9 
Python CGI 请 求 ， 然 后 让 Web 服务 器 访问 CGI 脚本 。 其 
员 的 帮助 。 

生产 环境 中 的 服务 器 








如 果 需 要 一 个 真正 的 Web Ji 















































中 有 许多 插件 或 模块 可 以 处 
生产 环境 


























开发 人 员 服 务 器 




















部 署 相关 服务 ， 或 许 需要 安装 这 些 软 们 





理 Python CGI， 但 在 这 








>O 


H 天 


如 何 设置 Web 服务 器 ， 接 着 逐步 剖析 如 何在 Python ! 
有 学 习 到 的 内 容 可 以 用 来 开发 任何 Web HE 


需要 安装 一 个 Web 服务 器 ， 将 其 配置 成 可 以 处 理 



























































= 





出 于 学 习 目 的 或 者 想 建立 小 型 Web 站 点 ， 使 用 Python 

















了 。 第 9 章 介绍 了 如 何 创建 和 配置 基于 Python 的 简单 Web 服务 器 。 





仅仅 使 用 了 Python 的 CGI Web 服务 器 。 














如 果 想 启动 这 个 最 基本 的 Web 服 





语句 。 
$ python -m CGIHTT 


在 Python 3 中 这 就 不 太 
一 个 模块 Chttp.server) | 











(BaseHTTPRequestHandler, SimpleHTTPReque 





如 果 没 有 为 服务 器 提供 











PServer [port] 


容易 了 ， 

















， 这 个 模块 








Python 2.4 中 新 增 的 。 如 果 
面 的 方法 。 























使 用 老 版 本 的 Python， 或 想 月 




















因为 所 有 这 三 个 Web 月 








有 些 操作 也 许 需要 获得 系统 管理 











消息 。 当 理解 了 为 什么 服务 




















创建 CGI 应 



































及 务 器 ,可 以 下 载 并 安装 Apache. ligHTTPD 或 thttpd。Apache 
有 的 例子 中 它们 并 不 是 必要 的 。 如 果 想 在 
晶 即 使 这 样 也 有 点 功能 过 剩 。 




















自身 











务 器 ， 可 以 在 Python 2.x ! 








THY Web 服务 器 就 已 经 足够 
而 本 章 的 例子 更 加 简单 ， 






































直接 执行 下 边 的 Python 

















R 务 器 和 对 应 的 处 理 程序 都 合并 到 
含有 一 个 基础 服务 器 和 三 个 请 求 处 理 程序 类 
stHandler 和 CGIHTTPRequestHandler )。 

t 可 选 的 端口 号 ， 则 默认 会 使 用 8000 WO. AIh, -m 选项 是 
其 他 方式 运行 程序 ， 可 以 使 用 下 
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。 从 命令 行 中 执行 脚本 。 
这 种 方法 有 点 问题 ， 因 为 必须 知道 CGIHTTPServerpy 文件 的 实际 存储 位 置 。 在 
Windows 系统 上 ，Python 安装 目录 一 般 是 C:\Python2X。 


C:\>python C:\Python27\Lib\CGIHTTPServer.py 
Serving HTTP on 0.0.0.0 port 8000 ... 


在 POSIX 系统 上 ， 需 要 稍微 查找 一 下 。 















































>>> import sys, CGIHTTPServer 

>>> sys.modules['CGIHTTPServer'] 

<module 'CGIHTTPServer' from '/usr/local/lib/python2.7/ 
CGIHTTPServer.py'> 

>>>^D 

$ python /usr/local/lib/python2.7/CGIHTTPServer.py 

Serving HTTP on 0.0.0.0 port 8000 ... 











。 使 用 -c 选项 。 
使 用 -c 选项 可 以 运行 由 Python 语句 组 成 的 字符 串 。 
CGIHTTPServer 并 执行 其 中 的 testO 函 数 。 





























因此 ， 可 以 使 用 下 面 的 方式 时 入 








lu 























$ python -c "import CGIHTTPServer; CGIHTTPServer.test()" 
Serving HTTP on 0.0.0.0 port 8000 ... 


在 Python 3.x 中 ， 由 于 CGIHTTPServer 合并 进 了 http.server P, ANE m EH] FA 
f£ Python 3.2 中 的 等 价 调用 方式 。 

































































$ python3.2 -c "from http.server import 
CGIHTTPRequestHandler,test;test (CGIHTTPRequestHandler)" 


。 创建 快速 脚本 。 
前 面 通过 -c 选项 执行 导入 并 调用 test0 的 语句 ， 将 这 些 语句 插入 任意 文件 中 ， 命 名 为 
cgihttpd.py 文件 (Python 2 或 3)。 对 于 Python 3， 由 于 没有 CGIHTTPServer.py 模块 可 供 
执行 , 因此 启动 服务 器 的 唯一 方式 就 是 使 用 命令 行 , 并 提供 非 8000 的 端口 号 , 如 下 所 示 。 














































































































$ python3.2 cgihttpd.py 8080 
Serving HTTP on 0.0.0.0 port 8080 ... 


这 4 种 方式 都 会 从 当前 计算 机 中 的 当前 目录 下 启动 一 个 端口 号 为 8000 (或 自行 指定 ) 的 
Web 服务 器 。 然 后 在 启动 服务 器 的 目录 下 创建 一 个 cgi-bin 目录 ， 放 入 Python CGI 脚本 。 将 
一 些 HTML 文件 放 到 启动 服务 器 的 目录 中 ， 可 能 要 在 cgi-bin 中 放 些 Python CGI 脚本， 然后 
就 可 以 在 地 址 栏 中 输入 这 些 地 址 来 访问 Web 站 点 。 

http://localhost:8000/friends.htm 

http://localhost:8080/cgi-bin/friendsB .py 
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需要 确保 启动 服务 器 的 目录 中 有 个 cig-bin 目录 ,同时 确保 其 中 有 相应 的 .py 文件 。 否则 ， 
服务 器 会 将 Python 文件 作为 静态 文本 返回 ， 而 不 是 执行 这 些 文件 。 


10.3.2 ”建立 表单 页 


在 示例 10-1 中 写 了 一 个 简单 的 Web 表单 ， 即 friends.html。 从 HTML 代码 中 可 以 看 到 ， 
该 表单 包括 两 个 输入 变量 : person 和 howmany。 这 两 个 字段 的 值 将 会 传 到 CGI 脚本 
friendsA.py 中 。 

读者 会 注意 到 在 这 个 例子 中 ， 将 CGI 脚本 安装 到 主机 默认 的 cgi-bin 目录 下 《〈 见 其 中 的 
“ACTION ”连接 )〈 如 果 这 个 信息 与 读者 的 开发 环境 不 一 样 ， 在 测试 Web 页 面 和 CGI 之 前 请 
更 新 表单 事件 )。 同 时 由 于 表单 事件 中 缺少 METHOD 子 标签 ， 因 此 所 有 的 请 求 都 是 默认 的 
GET 类 型 。 选 择 GET 方法 是 因为 这 个 表单 中 没有 太 多 的 字段 ， 同 时 也 希望 请 求 的 字段 可 以 
在 “位 置 ”( 又 称 “ 地 址 和 “Go To”) 栏 中 显示 ， 以 便 看 到 发 送 到 服务 器 端的 URL. 

































































































































































示例 10-1 静态 表单 页 面 (friends.htm ) 
这 个 HTML 文件 向 用 户 展 示 了 一 个 空 文档 ， 含 有 用 户 名 和 一 系列 可 供用 户 选择 的 单 选 按钮 。 







































































1 <HTML><HEAD><TITLE> 

2 Friends CGI Demo (static screen) 

3 </TITLE></HEAD> 

4 <BODY><H3>Friends list for: <I>NEW USER</I></H3> 

5 <FORM ACTION-"/cgi -bin/friendsA.py"» 

6  «B»5Enter your Name:</B> 

7 <INPUT TYPE-text NAME-person VALUE="NEW USER" SIZE=15> 
8 | «P»«B-»How many friends do you have?</B> 

9 <INPUT TYPE-radio NAME-howmany VALUE="0" CHECKED» 0 
10 <INPUT TYPE-radio NAME-howmany VALUE="10"> 10 

11 <INPUT TYPE=radio NAME=howmany VALUE="25"> 25 

12 <INPUT TYPE=radio NAME-howmany VALUE="50"> 50 

13 <INPUT TYPE=radio NAME=howmany VALUE="100"> 100 

14 <P><INPUT TYPE=submit></FORM></BODY></HTML> 





























图 10-2 和 图 10-3 显示 了 用 friends.htm 在 Windows 5 Mac 上 的 客户 端 演 染 的 界面 。 


Friends CGI Demo (static sc X 


€ Q f ®© localhost:8000/friends.htm wit 
Friends list for: NEW USER 





Enter your Name: NEW USER 
How many friends do you have? © 0 © 10 O 25 O 50 O 100 


图 10-2 Mac OS X 中 Chrome 浏览 器 隐身 模式 下 显示 的 Friends 表单 页 面 
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?)Friends CGI Demo (static screen) - Mozilla Firefox 
Ele Edt View History Bookmarks os Help 
L.] Friends CGI Demo (static screen) ES = 











Friends list for: NEW USER 


Enter your Name: [NEW USER 


How many friends do youhave? © 0 © 10 © 25 © 50 © 100 


Submit Query | 














图 10-3 Windows 的 Firefox 6 上 的 Friends 表单 页 面 


10.3.3 ”生成 结果 页 面 



























































示例 10-2 CGI 代 码 的 结果 界面 (friendsA.py) 











用 户 填写 相关 信息 ， 单 击 Submit 按钮 会 提交 这 些 信息 〈 在 该 文本 框 中 输入 完毕 后 按 


Iz] 
F 











CGI 脚本 从 表单 中 获取 person 和 howmany 字段 , 使 用 这 些 数 据 创建 动态 生成 的 结果 页 面 。 妊 







































































键 也 可 以 获得 相同 的 效果 )。 提 交 之 后 ， 示 例 10-2 中 的 friendsA.py 脚本 会 随 CGI 一 起 执行 。 


E Python 3 版 本 ( 即 


friendqsA3 .py, 这 里 没有 列 出 ) 中 , 需要 向 第 17 行 的 print 语句 添加 圆 括号 ,这 些 代 码 都 可 在 corepython.com 














上 找到 。 
#!/usr/bin/env python 
import cgi 


reshtm] = '''Content-Type: text/html\n 
<HTML><HEAD><TITLE> 

Friends CGI Demo (dynamic screen) 
«/TITLE»«/HEAD» 

<BODY><H3>Friends list for: <I>%s</I></H3> 
Your name is: <B>%s</B><P> 

You have <B>%s</B> friends. 
</BODY></HTML>''' 


WD O06 —) OD Ua 4 r2 一 


form = cgi.FieldStorage() 

who = form['person'].value 

howmany = form['howmany'].value 
print reshtm] % (who, who, howmany) 


QADEOnN=—sS 





这 个 脚本 包含 了 读 出 并 处 理 表 单 的 输入 ， 同 时 向 用 户 返 回 最 终 HTML 页 面 的 功能 。 所 有 





这 些 “ 实 际 ” 的 工作 仅 是 通过 4 ÍF Python 代码 〈 第 14—17 行 ) 来 实现 的 。 














表单 的 变量 是 FieldStorage 的 实例 ， 包 含 person 和 howmany 字段 的 值 。 将 这 些 值 分 别 存 
入 Python 的 who 和 howmany 变量 中 。 变 量 reshtml 包含 需要 返回 的 HTML 文本 的 正文 ， 还 

















有 一 些 根据 表单 中 读 入 的 数据 动态 填充 的 字段 。 
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核心 提示 : 分 离 HTTP 头 和 HTML 本 身 

有 一 点 需要 向 CGI 初学 者 指明 的 是 ， 在 向 CGI 脚本 返回 结果 时 ， 须 先 返回 一 个 适当 
的 HTTP 头 文件 再 返回 HTML 结果 页 面 。 另 外 ,为 了 区 分 这 些 头 文件 和 HTML 结果 页 面 ， 
需要 在 两 者 之 间 插 入 一 个 空 行 (两 个 换行 符 ), 以 frendsA.py 为 例 ， 即 在 第 5 行 末尾 插入 
一 个 显 式 的 mm。 本 章 后 边 的 代码 都 进行 了 这 样 的 处 理 。 

















图 10-4 是 生成 的 页 面 (假设 用 户 输入 的 名 字 为 “Annalee Lenday”， 单 击 “25 friends” 单 


选 按钮 )。 
Web 站 点 的 开发 者 或 许 会 想 “ 如 果 这 个 人 忘记 了 , 我 能 自动 将 这 个 人 的 名 字 首 字母 
大 写 ， 会 不 会 更 好 些 ? ”通过 Python 的 CGI 可 以 很 容易 实现 这 个 功能 (下 面 很 快 就 会 


实现 )。 

































































©) Friends CGI Demo (dynamic screen) - Mozilla Firefox | - [mf x] 
Ele Edit view History Bookmarks Tools 

(4& )9 |] (5 http://localhost ji-bin/friendsA.py?personsAnnalee-4-Lenday&howrmanys25 "IG 

(é> | 





| |_| Friends CGI Demo (dynamic screen) | * | E 


Friends list for: Annalee Lenday 


Your name is: Annalee Lenday 


You have 25 friends 




















图 10-4 在 提交 姓名 和 朋友 个 数 后 ， 显 示 了 Friends 结果 页 面 























注意 GET 请 求 是 如 何 将 表单 中 的 变量 和 值 加 载 在 URL 地 址 栏 中 的 。 读 者 是 否 观察 到 了 
friends.htm 页 面 的 标题 有 个 “static”， 而 从 friends.py 脚本 输出 到 屏幕 上 的 则 是 “dynamic”? 
这 样 做 是 为 了 指明 friends.htm 文件 是 一 个 静态 文本 文件 ， 而 结果 页 面 却 是 动态 生成 的 。 换 名 
话说 ， 结 果 页 面 的 HTML 不 是 以 文本 文件 的 形式 存在 硬盘 上 的 ， 而 是 由 CGI 脚本 生成 的 ， 
并 且 将 其 以 本 地 文件 的 形式 返回 。 

在 下 边 的 例子 中 , 将 会 更 新 前 面 的 CGI 脚本 , 使 其 变 得 更 灵活 些 , 从 而 完全 绕 过 静态 文件 。 


10.3.4 生成 表单 和 结果 页 面 


这 里 抛弃 了 friends.html 文件 ， 并 将 其 内 容 合并 到 friendsB.py 中 。 这 个 脚本 现在 将 会 同 
时 生成 表单 页 面 和 结果 页 面 。 但 是 如 何 控制 生成 哪个 页 面 呢 ? 如 果 发 送 了 表单 数据 ， 那 就 意 
味 着 需要 创建 一 个 结果 页 面 。 如 果 没 有 获得 任何 信息 ， 这 就 说 明 需 要 生成 一 个 用 户 可 以 输入 
数据 的 表单 页 面 。 示 例 10-3 中 列 出 了 新 的 friendsB.py 脚本 。 
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示例 10-3 生成 表单 和 结果 页 面 (friendsB.py) 

friends.htm 和 friendsA.py 都 合并 进 了 friendsB.py 中 。 最 终 的 脚本 可 以 用 动态 生成 的 HTML 文件 输出 
单 和 结果 页 面 ， 并 且 知 道 在 何 时 输出 哪个 页 面 。 若 要 将 这 些 代 码 移植 到 Python 3 版 本 的 friendsB3.py 中 
要 在 print 语句 中 添加 圆 括号 ， 并 修改 其 中 的 表单 事件 。 



















































































sow 


















































#!/usr/bin/env python 


import cgi 


formhtm] = '''<HTML><HEAD><TITLE> 
Friends CGI Demo</TITLE></HEAD> 
9  <BODY><H3>Friends list for: <I>NEW USER</I></H3> 
10 «FORM ACTION-"/cgi -bin/friendsB.py"» 
ll <B>Enter your Name:</B> 
12 <INPUT TYPE=hidden NAME=action VALUE=edit> 
13 <INPUT TYPE=text NAME-person VALUE="NEW USER" SIZE=15> 
14 <P><B>How many friends do you have?</B> 


l 
2 
3 
4 
5 header = 'Content-Type: text/htm1\n\n' 
6 
7 
8 


15 %s 

16 <P><INPUT TYPE=submit></FORM></BODY></HTML>''' 

17 

18 fradio = '<INPUT TYPE=radio NAME-howmany VALUE="%s" %s> %s\n' 
19 

20 def showForm(): 

21 friends = [] 

22 for i in (0, 10, 25, 50, 100): 

23 checked = '' 

24 if i == 0: 

25 checked = 'CHECKED' 

26 friends.append(fradio % (str(i), checked, str(i))) 
27 

28 print '%s%s' % (header, formhtm] % ''.join(friends)) 
29 

30 reshtm] = '''<HTML><HEAD><TITLE> 


31 Friends CGI Demo</TITLE></HEAD> 

32 <BODY><H3>Friends list for: <I>%s</I></H3> 
33 Your name is: <B>%s</B><P> 

34 You have <B>%s</B> friends. 

35 </BODY></HTML>''' 


36 

37 def doResults(who, howmany): 

38 print header + reshtml % (who, who, howmany) 
39 

40 def process(): 

4l form = cgi.FieldStorage() 

42 if 'person' in form: 

43 who = form['person'].value 

44 else: 

45 who = 'NEW USER' 

46 

47 if 'howmany' in form: 

48 howmany = form['howmany'].value 
49 else: 

50 howmany = 0 


逐 行 解释 


第 1~5 行 

除了 通常 的 起 始 行 和 模块 导入 行 之 外 , 这 里 还 把 HTTP MIME 头 从 后 面 的 HTML 正文 部 
单 页 面 和 结果 页 面 ) 中 都 使 用 
而 又 不 想 复制 文本 。 所 以 在 需要 的 时 候 ， 将 这 个 含有 HTML 头 的 字符 串 添 加 到 相应 的 








分 中 分 离 出 来 。 
X. 
HTML 正文 ! 

















if 


if 'action' 


else: 
showForm() 


name 
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in form: 
doResults(who, 


howmany ) 


main 





process() 

















第 7 一 28 íF 


这 段 代 码 与 CGI 脚本 里 整合 过 的 friends.htm 表单 页 面 有 关 。 XKÈ 
昌 来 创建 单 选 
制 这 个 单 选 按钮 的 HTML 文本 ， 但 这 


变量 formhtml, 

















还 有 一 个 有 


因为 需要 在 返 





H 











的 两 种 页 面 〈 表 














出 一 一 见 第 22 一 26 行 的 for 循环 。 
showForm(O) 函 数 负责 

并 把 这 些 HTML 文本 行 合 

字符 mA 送 到 标准 输出 





这 段 代 码 中 有 两 处 有 趣 的 地 方 值得 注意 。 
,这 里 的 值 为 “edit”。 只 能 通过 这 个 字段 才能 决定 显示 哪个 页 面 (表单 页 























x 
7 
Im 











从 第 53—56 行 可 以 看 到 这 个 字段 的 作用 。 

还 有 ， 在 生成 所 有 按钮 的 循环 过 程 ! 
代码 里 (第 18 行 ) WES 
高 了 灵活 性 ， 可 以 采 月 























在 一 行 
同时 提 
friendsC.py。 























































































































里 的 目的 是 展示 如 何 使 用 











生成 表单 页 面 用 于 用 户 输入 。 
并 到 formhtml 主体 
的 方式 使 客户 端 返回 了 整 块 数据 。 























Python 3&4 





页 面 的 文本 使 用 























A 


























点 是 表单 中 第 








E 








HTTP MIME 


一 个 


按钮 的 字符 串 变 量 fradio。 虽 然 可 以 从 friends.htm 复 
E 成 更 多 的 动态 输 


该 函数 为 单 选 按钮 创建 一 个 文字 集 ， 
， 然 后 给 表单 加 上 头 信息 ， 最 后 通过 把 整个 


12 fT action AF] “hidden” 




















, 把 





























# 选 按钮 的 布 
日 逻辑 来 判 











用 或 结果 页 














fil)» 
































断 哪 个 单 选 按钮 被 选 ! 














单 选 按 钮 0 设置 为 默认 按钮 。 这 使 得 可 以 


局 和 /或 它们 的 值 ， 而 无 须 再 写 多 行文 本 。 


， 参 见 后 面 的 升级 版 








现在 读者 或 许 会 想 :“ 既 然 可 以 检查 person 或 howmany 是 否 存在 ， 那 为 什么 还 需要 一 个 





action We? ” 问 得 好 ! 在 这 和 
然而 ，action 变量 很 引 人 注 














howmany 变量 都 
创建 action 的 另 一 个 原因 后 
需要 在 出 现 person 变量 时 显示 一 个 表单 〈 而 不 是 结 








SE 








代码 会 出 问题 。 
































E 目 ， 从 名 称 就 能 看 出 大 
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— 

















来 存储 值 ， 而 action 变量 则 ) 

















j 来 作为 一 个 标志 。 




















fl =F 

















BK AE) 
































j 到 这 个 变量 来 决定 生成 哪个 页 面 。 


果 页 面 )。 如 果 在 这 里 仅 依 赖 person 变量 


情况 下 当然 可 以 只 用 person 或 howmany。 
， 让 代码 很 容易 理解 。person 和 
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E. 
Es 
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第 30—38 行 
显示 结果 页 面 的 代码 与 friendsA.py 中 的 几乎 相同 。 
第 40~55 行 
因为 这 个 脚本 可 以 产生 不 同 的 页 面 , 所 以 创建 了 一 个 完整 的 rocess() 函 数 来 获得 表单 数据 
并 决定 采取 何 种 动作 。 看 起 来 processO 的 主体 部 分 也 和 friendsA.py 中 主体 部 分 的 代码 相似 。 
然而 ， 还 是 有 两 个 主要 区 别 。 

由 于 不 知道 这 个 脚本 是 否 能 获得 所 需 的 字段 〈 例 如 ， 第 一 次 运行 脚本 时 生成 一 个 表单 页 
面 ， 这 种 情况 下 不 会 向 服务 器 传递 任何 字段 )， 因 此 需要 用 方 括号 将 表单 字段 名 称 “ 括 起 来 ”% 
用 让 语句 检查 该 字段 是 否 存 在 。 另 外 ， 上 面 提 到 的 action 字段 可 以 用 来 决定 生成 哪个 页 面 。 
第 52 一 55 行进 行 了 这 种 检查 。 
图 10-5 显示 了 自动 生成 的 表单 , 它 与 图 10-2 中 的 静态 表单 完全 相同 ,但 其 后 级 不 是 .html， 
而 是 .py。 如 果 在 name 中 填写 “Cynthia Gilbert”， 选 择 50 个 朋友 ， 单 击 Submit 按钮 ， 会 看 
到 如 图 10-6 所 示 的 页 面 。 






































































































































© Friends CGI Demo 


€ QC ft Olocahost:8000/cg-bin/friendsB.py vy 
Friends list for: NEW USER 


Enter your Name: [NEW USER 


How many friends do youhave? © 0 © 10 © 25 © 50 © 100 


Submit | 














PR 





10-5 Windows 上 Chrome 中 自动 生成 的 Friends 表单 页 面 


























© Friends CGI Demo 
所 Q fi QOlocahost:8000/cgi-bin/friendsB.py?act Y 


Friends list for: Cynthia Gilbert 


Your name is: Cynthia Gilbert 


You have 50 friends. 














图 10-6 “提交 姓名 和 朋友 个 数 之 后 的 Friends 结果 页 面 


























JER, URL 中 没有 显示 出 静态 的 friends.htm， 因 为 其 需要 同时 处 理 表单 和 结果 页 面 。 
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10.3.5 全面 交互 的 Web 站 点 


最 后 一 个 例子 完成 这 个 程序 。 在 前 面 ， 用 户 在 表单 页 面 中 输入 个 人 信息 ， 程 序 处 理 
个 结果 页 面 。 现在 将 会 在 结果 页 面 上 添加 一 个 链接 ,允许 用 户 返 回 
但 是 返回 的 不 是 一 个 空白 表单 ， 而 是 含有 用 户 输入 信息 的 页 面 。 这 里 还 添加 了 一 些 错 


数据 ， 并 输出 一 
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=z 
























































代码 ， 用 来 给 出 相关 提示 信息 。 示 例 10-4 显示 了 新 的 friendsC.py. 


示例 10-4 具有 完整 用 户 交互 和 错误 处 理 功能 的 程序 (friendsC .py) 
通过 添加 用 于 返回 含有 已 输入 信息 的 表单 页 面 的 连接 ， 实 现 了 完整 的 程序 ， 给 用 户 提供 全 面 交 互 的 Web 应 





单 

















































































































误 处 理 


体验 。 





























该 应 


















































程序 现在 也 进行 了 一 些 简单 的 错误 检查 ， 在 用 户 没有 选择 任何 单 选 按钮 时 给 予 用户 提 示 信 息 。 























#!/usr/bin/env python 


import cgi 
from urllib import quote plus 


header = 'Content-Type: text/html\n\n' 
url = '/cgi-bin/friendsC.py' 


errhtm] = '''<HTML><HEAD><TITLE> 
Friends CGI Demo</TITLE></HEAD> 
<BODY><H3>ERROR</H3> 

<B>%s</B><P> 

<FORM><INPUT TYPE=button VALUE=Back 
ONCLICK="window.history.back() "></FORM> 
</BODY></HTML>''' 


def showError(error_str): 
print header + errhtm] % error str 


formhtm] = '''<HTML><HEAD><TITLE> 

Friends CGI Demo</TITLE></HEAD> 
<BODY><H3>Friends list for: <I>%s</I></H3> 

<FORM ACTION="%s"> 

<B>Enter your Name:</B> 

<INPUT TYPE=hidden NAME=action VALUE=edit> 
<INPUT TYPE=text NAME=person VALUE="%s" SIZE=15> 
<P><B>How many friends do you have?</B> 

96s 

<P><INPUT TYPE=submit></FORM></BODY></HTML>''' 


fradio = '<INPUT TYPE=radio NAME=howmany VALUE="%s" %s> %s\n' 


def showForm(who, howmany): 


friends = [] 

for i in (0, 10, 25, 50, 100): 
checked = '' 
if str(i) == howmany: 


checked = 'CHECKED' 
friends.append(fradio % (str(i), checked, str(i))) 
print '%s%s' % (header, formhtml % ( 
who, url, who, ''.join(friends))) 
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friendsC.py 和 friendsB.py 没有 太 大 区 别 。 这 里 请 读者 找 出 不 同 点 ， 但 下 面 会 简要 列 出 其 


中 的 主要 区 别 。 


逐 行 解释 


第 7 行 


reshtm] = '''<HTML><HEAD><TITLE> 

Friends CGI Demo</TITLE></HEAD> 

<BODY><H3>Friends list for: <I>%s</I></H3> 

Your name is: <B>%s</B><P> 

You have <B>%s</B> friends. 

<P>Click <A HREF="%s">here</A> to edit your data again. 
</BODY></HTML>''' 


def doResults(who, howmany): 
newurl = url + '?action=reedit&person=%s&howmany=%s '%\ 
(quote plus(who), howmany) 
print header + reshtml % (who, who, howmany, newurl) 


def process(): 


error = 
form = cgi.FieldStorage() 


if 'person' in form: 

who = form['person'].value.title(O 
else: 

who = 'NEW USER' 


if 'howmany' in form: 
howmany = form['howmany'].value 


else: 
if 'action' in form and \ 
form['action'].value == 'edit': 
error = "Please select number of friends.' 
else: 


howmany = 0 


if not error: 
if 'action' in form and \ 
form['action'].value != 'reedit': 
doResults(who, howmany) 
else: 
showForm(who, howmany) 
else: 
showError(error) 


if name -' gain ': 


process() 


















































把 URL 从 表单 中 移出 来 ， 因 为 现在 除了 输入 表单 之 外 ， 结 果 页 面 也 要 月 
第 9~18 行 、 第 68—704T. € 74—814T 
所 有 这 些 代码 都 用 来 显示 错误 提示 信息 。 如 果 用 户 没 有 选择 单 选 按钮 来 




















月 到 。 





指明 朋友 数量 ， 





3 
误 页 面 。 

















错误 页 面 用 





到 了 JavaScript 的 “后 退 ” 按 钮 。 





表单 ， 但 不 需要 有 动作 ， 
HDA SCRE (或 者 说 只 检测 ) 一 种 类 型 的 错误 ， 
DJ ARETE AR NAS, 














因为 只 是 简单 地 后 退 到 浏 


Te 
但 仍然 使 月 
可 以 添加 更 多 的 错误 检测 。 
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BA howmany 字段 就 不 会 传送 给 服务 器 。 这 种 情况 下 ，showErrorO 函 数 会 向 用 户 返 回 一 个 错 





因为 按钮 都 是 输入 类 型 的 ， 所 以 需要 一 个 





We 





Br 














的 上 一 个 页 面 。 尽 管 这 个 脚本 目 
个 通用 的 error 变量 ， 因 此 如 果 


AR 



































第 26—28 4T. A 37~40 行 、 第 47 行 和 第 51 ~54 íF 


这 些 代码 的 目的 是 创建 一 个 有 意义 的 链接 ， 以 便 从 结 
































输 

















息 的 表单 页 面 。 
第 61 行 


最 后 ， 为 了 美观 而 添加 


j 这 个 链接 返回 表单 
入 的 信息 (如果 让 

为 了 实现 这 一 点 ， 需 要 把 当前 值 嵌 入 到 更 新 过 的 
一 个 值 。 如 果 给 出 这 个 值 , 则 会 把 它 插入 name 字段! 
在 第 37—38 行 ， 根 据 当 前 选 定 的 朋友 数目 设置 了 单 选 按钮 。 最 后 ， 通 过 第 48 行 和 
54 行 更 新 了 的 doResultsO 函 数 ， 创 建 了 这 个 包含 已 有 



































] 户 重新 输入 这 些 信 























页 面 返回 表单 页 面 。 用 户 可 以 使 

















页 面 去 更 新 或 编辑 填写 的 数据 。 新 的 表单 页 面 首先 会 直接 含有 用 户 先前 


EAR A AI 











HiE D. 
表单 中 。 在 第 26 fT, 


给 


name 添加 了 











o 











显然 , 在 初始 表单 页 面 上 它 是 空 值 。 


AE CL 
第 52— 
























































以 看 到 返回 结果 和 





码 , 会 发 现 其 中 是 直接 将 名 字 显 示 出 来 。 这 意味 着 如 果 








的 也 是 全 小 写 。 
符 串 方法 tite0 可 以 完成 这 个 任务 。 虽 然 不 一 定 需要 这 
能 的 存在 。 
图 10-7 一 图 10-10 显示 了 用 户 和 CGI 表单 及 脚本 的 交互 过 程 。 
在 图 10-7 中 ， 调 用 























信息 的 链接 ， 让 ) 














还 有 相关 信 





j 户 返回 








个 简单 的 特性 。 在 friendsA.py 和 friendsB.py 的 界面 中 ， 可 
户 的 输入 一 字 不 差 。 如 果 查 看 friendsA.py 和 friendsB.py 中 的 相关 代 
































j 户 名 字 全 部 是 小 写 ， 则 最 终 显示 


























因此 添加 了 str.tileO 函 数 ， 用 来 自动 将 用 户 名 称 的 首 字母 转换 成 大 写 。 字 
























































© Friends CGI Demo 


€ 


Q  Olocahost:8000/egi-bin/friendsc. py 














个 功能 ， 但 至 少 让 读者 知道 这 个 功 








friendsC.py 生成 表单 页 面 。 输 入 “fool bar”， 但 故意 忘记 选择 单 选 按 


钮 。 单 击 Submit 按钮 后 将 会 返回 错误 页 面 ， 如 图 10-8 所 示 。 


* ul a 


For quick access, place your bookmarks here on the bookmarks bar. Import bookmarks n... 


Friends list for: NEW USER 


Enter your Name: [foo bar 


How many friends do youhave? © 0 © 10 © 25 © 50 © 100 























10-7 Friends 的 初始 表单 














5 





HI > 





没有 选择 朋友 个 数 
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© Friends CGI Demo 


€ Q fi |Q localhost:8000/eg-bin/friendsc.py?ac YY | uil a8 
For quick access, place your bookmarks here on the bookmarks bar. Import bookmarks n... 


ERROR 


Please select number of friends. 


Back | 











D 


























10-8 无效 的 用 户 输入 导致 的 错误 页 面 




















我 们 单 击 Back 按钮 ， 然 后 单 击 50 单 选 按钮 ， 并 重新 提交 表格 ， 其 产生 的 页 面 如 图 10-9 所 
示 。 该 页 面 看 起 来 很 熟悉 ， 但 是 在 底面 有 了 一 个 额外 的 链接 ， 该 链接 可 以 将 我 们 带 回 表单 页 面 ， 
新 表单 页 面 与 原 表 单 页 面 的 唯一 区 别 是 由 用 户 填写 的 所 有 数据 现在 成 为 默认 设置 , 也 就 是 说 , Be 
据 值 在 表单 中 已 经 是 可 用 的 希望 你 也 注意 到 名 字 的 首 字母 自动 为 大 写 )， 如 图 10-10 所 示 。 














































































































© Friends CGI Demo 
€ C fi O locabost:8000/cgi-bin/friendsC.py?actionzediter Y ail 
For quick access, place your bookmarks here on the bookmarks bar. Import bookmarks now... 


Friends list for: Foo Bar 
Your name is: Foo Bar 
You have 50 friends 


Click here to edit your data again. 

















图 10-9 含有 正确 输入 信息 的 Friends 结果 页 面 





(Q Friends CGI Demo x 
€ C fi O bcahost:8000/cgi-bin/riendsC.py?action=reedit v | uil a8 
For quick access, place your bookmarks here on the bookmarks bar. Import bookmarks now... 


Friends list for: Foo Bar 


Enter your Name: [Foo Bar 


How many friends do you have? C 0 © 10 © 25 © 50 © 100 


Submit | 

















图 10-10 ”返回 的 Friends 表单 页 面 











这 时 用 户 可 以 更 改 任何 一 个 字段 并 重新 提交 表单 。 





是 
些 
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然而 ， 作 为 开发 者 ， 训 无 疑问 会 注意 到 表单 和 数据 比 之 前 复杂 很 多 ， 生 成 的 HTML 页 面 也 











N 


这 样 ， 结 果 页 面 更 是 复杂 。 如 果 不 想 在 Python 代码 中 直接 与 HTML 文本 打交道 ， 可 以 考虑 一 
Python 包 ， 如 HIMLgen、xist 或 HSC。 这 些 第 三 方 工 具 专门 用 来 从 Python 对 象 生成 HTML。 





最 后 ， 在 示例 10-5 中 ， 将 列 出 Python 3 的 等 价 版 本 : friendsC3.py。 





示例 10-5 Python 3 版 本 的 frirendsC.py (friendsC3.py) 
这 个 Python 3 的 等 价 版 本 ， 到 底 有 哪些 不 同 呢 ? 
#!/usr/bin/env python 


1 

2 

3 import cgi 

4 from urllib.parse import quote plus 

5 

6 header = 'Content-Type: text/html\n\n' 
7 url = '/cgi-bin/friendsC3.py' 


9  errhtm] = '''<HTML><HEAD><TITLE> 

10 Friends CGI Demo</TITLE></HEAD> 

11 <BODY><H3>ERROR</H3> 

12 <B>%s</B><P> 

13 <FORM><INPUT TYPE=button VALUE=Back 

14 ONCLICK="window. history. back() "></FORM> 
15 </BODY></HTML>''' 


17 def showError(error str): 
18 print(header + errhtm] % (error str)) 


20 formhtm] = '''<HTML><HEAD><TITLE> 

21 Friends CGI Demo</TITLE></HEAD> 

22 <BODY><H3>Friends list for: <I>%s</I></H3> 

23 <FORM ACTION="%s"> 

24 <B>Enter your Name:</B> 

25 <INPUT TYPE=hidden NAME=action VALUE=edit> 

26 <INPUT TYPE=text NAME=person VALUE="%s" SIZE=15> 
27 <P><B>How many friends do you have?</B> 


28 %S 

29 <P><INPUT TYPE=submit></FORM></BODY></HTML>''' 

30 

31 fradio = '«INPUT TYPE=radio NAME=howmany VALUE="%s" %s> %s\n' 
32 

33 def showForm(who, howmany): 

34 friends = [] 

35 for i in (0, 10, 25, 50, 100): 

36 checked = '' 

37 if str(i) == howmany: 

38 checked = 'CHECKED' 

39 friends.append(fradio % (str(i), checked, str(i))) 
40 print('%s%s' % (header, formhtml % ( 

4l who, url, who, ''.join(friends)))) 

42 

43 reshtm] = '''<HTML><HEAD><TITLE> 


44 Friends CGI Demo</TITLE></HEAD> 

45 <BODY><H3>Friends list for: <I>%s</I></H3> 
46 Your name is: <B>%s</B><P> 

47 You have <B>%s</B> friends. 
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48 «P»Click «A HREF="%s">here</A> to edit your data again. 
49 </BODY></HTML>''' 

50 

51 def doResults(who, howmany): 

52 newurl = url + '?action=reedit&person=%s&howmany=%s' % ( 
53 quote_plus(who), howmany) 

54 print(header + reshtml % (who, who, howmany, newurl)) 
55 

56 def process(): 

57 error = '' 

58 form = cgi.FieldStorage() 

59 

60 if 'person' in form: 

61 who = form['person'].value.title() 

62 else: 

63 who = 'NEW USER' 

64 

65 if 'howmany' in form: 

66 howmany = form['howmany'].value 

67 else: 

68 if 'action' in form and \ 

69 form['action'].value == 'edit': 

70 error = "Please select number of friends.' 
71 else: 

72 howmany = 0 

73 

74 if not error: 

75 if 'action' in form and \ 

76 form['action'].value != 'reedit': 

T] doResults(who, howmany) 

78 else: 

79 showForm(who, howmany) 

80 else: 

81 showError(error) 

82 

83 if name == ' main ': 

84 process() 


10.4 在 CGI 中 使 用 Unicode 


Core Python Programming 9X Core Python Language Fundamentals 的 第 6 章 介 绍 了 Unicode 


PS AF g 














字符 


F, FE 
中 会 向 浏览 器 提供 





的 使 用 。 其 中 一 节 给 出 了 一 个 简单 的 例子 脚本 ， 即 接受 Unicode 字符 串 ， 写 入 一 个 文 














uk 

















i 读 出 来 。 而 这 
足够 的 信息 ， 从 而 可 以 正确 地 泻 染 相 关 字符 。 叭 



































必须 安装 有 对 应 的 东亚 字体 来 让 浏览 器 显示 相关 字符 。 
为 了 使 用 Unicode， 将 编写 一 个 CGI 脚本 生成 一 个 多 语言 的 Web 页 面 。 首 先 用 Unicode 









































定义 一 些 消息 。 这 里 假设 读者 的 编辑 器 只 能 输入 ASCII 码 。 





使 用 \u 转 义 符 输入 。 这 样 从 文件 或 数据 库 中 也 能 读 取 到 这 些 消息 。 





# Greeting in English, Spanish, 





将 演示 一 个 可 以 输出 Unicode 字 串 符 的 简单 CGI 脚本 。 这 个 例子 
一 的 要 求 是 读者 的 计算 机 
































因此 , JE ASCH 码 的 字符 





98103: Web 编程 : CGI| 和 WSGI 363 


# Chinese and Japanese. 

UNICODE HELLO = u""" 

Hello! 

Nu00A1Hola! 

\u4F60\u597D! 
\u3053\u3093\u306B\u3061\u306F! 


CGI 产生 的 第 一 个 输出 是 Content-type， 这 是 HTTP 头 。 需 要 特别 注意 的 是 ， 这 里 表明 了 
内 容 是 以 UTF-8 编码 进行 传输 的 ， 这 样 浏览 器 才 可 以 正确 地 解释 内 容 。 


print 'Content-type: text/html; charset=UTF-8\r' 


print '\r' 
然后 输出 真正 的 消息 。 先 用 字 串 符 类 的 encode0 方 法 先 将 字符 串 转换 成 UTF-8 序列 。 
print UNICODE HELLO.encode('UTF-8') 


可 以 在 示例 10-6 中 查看 相关 代码 ， 输 出 结果 如 图 10-11 中 浏览 器 窗口 所 示 。 



































示例 10-6 简单 的 Unicode CGI 示例 (uniCGl.py) 


这 段 代码 会 在 Web 浏览 器 中 显示 Unicode 字符 串 。 











#!/usr/bin/env python 


\u3053\u3093\u306B\u3061\u306F ! 


1 

2 

3 CODEC = 'UTF-8' 

4 UNICODE HELLO = u''' 
5 Hello! 

6 | NuOOA1Hola! 

7  \u4F60\u597D! 

8 

9 


ll print 'Content-Type: text/html; charset=%s\r' % CODEC 

12 print '\r' 

13 print '<HTML><HEAD><TITLE>Unicode CGI Demo</TITLE></HEAD>' 
l4 print '<BODY>' 

15 print UNICODE_HELLO.encode(CODEC) 

16 print '</BODY></HTML>' 





Lj hite:/focahest:s000/cg-binihelo.py — [v] O % |GL 


Hello! ¡Hola! 你 好 ! ZATONA! 











Ds 








10-11 简单 的 Unicode CGI 程序 在 Firefox 上 的 输出 结果 
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10.5 mk CGI 








现在 来 看 看 CGI 编程 的 高 级 方 




















同一 个 CGI 字段 的 多 个 值 ， 以 及 














会 在 同一 个 程序 ! 





FRANKS MATE. FF 





, AA 


F cookie 的 使 用 










































































10.5.1 mulitipart 表单 提交 和 文件 上 传 

















“multipart/form-dat”。 由 于 前 者 是 默认 的 ， 因 


编码 方式 。 


<FORM enctype="applica 





























但 是 对 了 

















multipart 表单 ， 需 要 像 下 面 这 柱 


<FORM enctype="mul 





























以 使 





单 提交 时 可 









































<INPUT 
3 a BS 
这 个 指令 显示 一 个 


找到 要 上 传 的 文件 。 在 使 


m 











HT 











J 任 Ash 




















“urlencode” 来 对 文件 自动 纪 

















器 ， 只 是 以 一 种 不 同 的 “ 


不 论 使 



































10.5.2 ”多 值 字段 


除了 上 传 文件 之 外 ， 还 会 展示 如 何 处 到 




















人 允许 






































封装 ” 


j 的 是 默认 编码 还 是 
表单 提交 时 提供 键 和 相应 的 值 。i 




















tipart/form-data" ... 
种 编码 ， 但 在 上 传 文件 时 只 能 使 用 
编码 是 由 网 景 在 早期 开发 的 ， 现 今 主流 浏览 器 都 采用 这 个 编码 。 

通过 使 用 输入 文件 类 型 完成 文件 上 传 。 








type-file name=...> 
的 文本 框 ， 同 时 旁边 有 个 按钮 , 可 以 通过 该 按钮 浏览 文件 目录 结构 ， 

J multipart 编码 时 ， 客 户 端 提交 到 服务 
有 附件 的 (multipart〉email 消息 。 同 时 需要 对 文件 单独 编码 ， 因 




















tion/x-www-form-urlencoded" ... 


明确 给 出 编码 。 

















> 









































器 端的 表单 看 起 来 会 很 像 带 




















EXIT D. 























i 码 的 程度 ， 尤 其 是 对 一 个 二 进 制 文件 



































数据 。 总 的 来 说 不 是 很 麻烦 。 


表单 时 ， 数 据 从 月 


























日 户 端 以 键 - 值 对 









































(保存 在 客户 端的 缓存 数据 )， 
] multipart 表单 提交 方式 实现 文件 上 传 。 为 了 节省 篇 幅 ， 将 
ERA multipart 提交 。 











目前 ，CGI 特别 指出 只 允许 两 种 表单 编码 :“application/x-www-form-urlencoded ”和 
此 就 没有 必要 像 下 边 那样 在 FORM 标签 里 声明 


multipart 编码 。multipart 



































为 程序 没有 聪明 到 使 用 














F。 这 些 信息 仍然 会 到 达 服 务 








multipart 编码 ，cgi 模块 都 会 以 同样 的 方式 来 处 理 它 们 ， 在 
还 可 以 像 以 前 那样 通过 FieldStorage 实例 来 访问 数据 。 


多 值 字段 。 最 常见 的 情况 就 是 有 一 系列 的 复 选 杠 
和 户 有 多 个 选择 。 每 个 复 选 框 都 会 指向 相同 的 字段 名 ， 但 是 为 了 区 分 这 些 复 选 枉 ， 会 有 
不 同 的 值 与 特定 的 复 选 框 关联 。 

读者 已 经 知道 ， 在 提交 
止 一 个 复 选 框 时 ,就 会 有 多 个 值 对 应 同一 个 甸 
类 实例 的 列表 ， 可 以 遍历 该 列表 获得 所 有 的 值 ， 而 不 是 使 ) 





区 式 发 送 到 服务 器 端 。 当 提交 不 
。 在 这 种 情况 下 ，cgi 模块 将 会 建立 一 个 包含 这 
单个 MiniFieldStorage 实例 持 有 











10.5.3 cookie 


#10 
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最 后 ， 将 在 例子 


I 

















点 服务 器 要 求 保存 在 客户 端 ( 如 浏览 器 ) 上 的 二 进 制 数 据 。 
“无 状态 信息 ”的 协议 ， 因 此 就 像 在 本 章 最 开始 看 到 的 截图 一 样 ， 信 





由 于 HTTP 是 一 个 























息 通 过 GET 请 求 中 的 键 值 对 来 从 一 个 页 面 传递 到 另 一 个 页 

















吏 用 cookie。 如 果 读 者 对 cookie 还 不 太 熟 悉 ， 


可 以 把 它们 看 成 Web 站 






























































。 还 有 男 一 种 方法 , 前面 已 经 见 








到 过 ， 即 使 用 隐藏 的 表单 字段 ， 如 较 新 的 friends*.py 脚本 中 的 action 变量 。 这 些 变 量 和 值 由 








服务 器 托管 ， 因 为 这 些 信 息 必须 藤 入 到 新 入 








另 一 种 可 以 保持 多 








入 数据 的 方法 来 保持 数 和 
者 覆盖 其 他 Web 站 点 中 


























成 的 页 面 中 并 返回 给 客户 端 。 


个 页 面 浏览 连续 性 的 方法 就 是 在 客户 端 保存 这 些 数据 。 这 就 是 引进 
cookie 的 原因 。 服 务 器 向 客户 端 发 送 一 个 请 求 来 保存 cookie， 而 不 必 





























He cookie 连接 到 最 初 服务 器 的 主 域 上 《这 村 
的 cookie)， 并 且 有 一 定 的 存储 期 限 〈 因 此 沪 























用 在 返回 的 Web WH n x 
一 个 服务 器 就 不 能 设置 或 
1 览 器 不 会 堆 满 cookie)。 



































这 两 个 属性 是 通过 有 关 数 据 条 目的 键 - 值 对 和 cookie 联系 在 一 起 的 ,cookie 还 有 一 些 其 他 
的 属性 ， 如 域 子路 径 、cookie 安全 传输 请 求 。 













































































有 了 cookie， 就 不 必 为 了 将 数据 从 一 页 传 到 另 一 页 而 跟踪 用 户 了 。 虽 然 这 在 隐私 问题 上 
也 引发 了 大 量 的 争论 ， 但 是 多 数 Web 站 点 认真 负责 地 使 月 
端 获得 请 求 文件 前 ，Web 服务 器 向 客户 站 



























































H T cookie。 为 了 准备 代码 ， 在 客户 
者 发送“Set-Cookie” 头 文件 要 求 客 户 端 存储 cookie. 

一 旦 在 客户 端 建立 了 cookie, HTTP. COOKIE 环境 变量 会 将 那些 cookie 自动 放 到 请 求 : 
发 送 给 服务 器 。cookie 是 以 分 号 分 隔 的 键 值 对 存在 的 ， 
键 值 对 中 间 都 由 等 号 (=) 分 开 。 为 了 访问 这 些 数 据 ， 应 用 程序 需要 多 次 拆 分 这 些 字 符 串 (也 
就 是 说 ， 使 用 str.split0 或 者 手动 解析 )。 




















以 分 号 GO 分 隔 各 个 键 值 对 ， 每 个 











和 multipart 编码 一 样 ，cookie 同样 起 源 于 网 景 ， 网 景 制定 出 第 一 个 cookie 规范 并 沿用 至 今 。 


























http://www.netscape 


在 cookie 标 准 化 后 ， 












































在 下 边 的 Web 站 点 中 可 以 访问 这 些 文 档 。 


.com/newsref/std/cookie spec.html 











这 个 文档 就 被 废除 了 ， 读 者 可 以 从 评论 请 求 文档 (RFC) 中 获得 现 

















10.5.4 cookie 和 文件 上 传 























现在 展示 CGI 应 















































在 的 更 多 信息 。 现 今 最 新 的 cookie 文 件 是 1997 年 发 布 的 RFC 2109。2000 年 发 布 了 RFC 2965 
来 替代 RFC 2109。 最 新 的 是 2011 年 4 月 发 布 的 RFC 6265， 蔡 换 了 之 前 的 两 个 ”。 


程序 advcgi.py， 它 的 代码 和 功能 与 本 章 前 面 介 绍 的 friendsC.py 差别 
不 是 很 大 。 默 认 的 第 一 页 是 用 户 填 写 的 表单 ， 由 4 个 主要 部 分 组 成 : 

















JARAH cookie 字符 

















串 、 姓 名 字段 、 编 程 语言 复 选 框 列表 、 文 件 提交 框 。 在 图 10-12 ! 























一 些 示例 输入 信息 。 


可 以 看 到 截图 ， 其 中 包含 

















”现在 还 是 在 用 这 个 ， 没 有 


发 布 新 的 了 。 一 一 译 者 注 
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这 些 数 据 以 mutipart 编码 提交 到 服务 器 端 , 在 服务 器 端 以 同样 的 方式 用 























获取 。 唯 一 不 同 的 就 是 对 上 传 文件 的 检索 。 在 这 个 应 用 程序 中 ， 选 择 的 是 








件 。 如 果 不 介意 文件 大 小 ， 也 可 以 一 次 读 入 整个 文件 。 











由 于 这 是 服务 器 端 第 一 次 接 到 数据 ， 因 此 正 是 此 时 ， 在 向 客户 端 返 























“Set-Cookie:” 头 文件 来 捕获 浏览 器 端的 cookie. 





© Advanced CGI Demo 


€ > QC fi Olocahost:2000/eg-bin/advogip 
Advanced CGI Demo Form 
My Cookie Setting 


* CPPuser = (cookie has not been set yet) 


Enter cookie value 


Hey, | got a cookie! (optional) 


Enter your name 


[Wwesey — ——— (required) 
What languages can you program in? (af least one required) 
同 Python [^ Ruby [7 Java [^ C++ 记 PHP F CT JavaScript 
Enter file to upload (max size 4K) 
Choose File | bio.txt 
-Submi | 












































图 10-12 ”高 级 CGI cookie、 文 件 上 传 及 多 值 表单 页 面 


在 图 10-13 中 ， 可 以 看 到 数据 提交 后 的 结果 。 用 户 输 入 的 所 有 字段 都 可 以 在 页 

















出 来 。 在 最 后 对 话 框 中 指定 的 文件 也 上 传 到 了 服务 器 端 ， 并 显示 | 


























HÆ. 


























FieldStorage 实例 


TEAL, WA 








回 结果 页 面 时 使 用 






































读者 也 会 注意 到 在 结果 页 面 下 方 的 那个 链接 ， 这 里 使 用 了 相同 的 CGI 脚本 来 返回 表 











单 页 面 。 


























如 果 单 击 下 方 的 那个 链接 , 就 不 会 各 脚本 提交 任何 表单 数据 , 而 是 会 显示 一 个 表单 页 面 。 








然而 ， 如 图 10-14 所 示 ， 之 前 填写 的 所 有 信息 可 以 显示 出 来 ， 而 不 是 一 个 空 表单 ! 在 没有 表 
单数 据 的 情况 下 是 怎样 做 到 这 一 点 的 呢 ( 要 么 使 用 隐藏 字段 ,要么 作为 URL ! 


























原因 是 这 些 数据 都 保存 在 客户 端的 cookie 中 了 。 




















音 息 都 会 存储 在 cookie 中 。 









































的 查询 参数 )? 


用 户 的 cookie 将 用 户 输入 表单 中 的 值 都 保存 了 起 来 ， 用 户 名 、 使 用 的 语言 、 上 传 文件 的 














当 脚 本 检测 到 表单 没有 数据 时 ， 它 会 返回 一 个 表单 页 面 ， 但 是 创建 在 表单 页 面前 ， 它 会 从 


























客户 端的 cookie 中 抓 取 数 据 〈 当 用 户 在 单 击 了 那个 链接 的 时 候 将 会 自动 传 入 ) IFA 









































将 其 填 入 相 

















应 的 表单 项 中 。 因 此 当 表 单 最 终 显 示 出 来 时 ， 先 前 输入 的 信息 便 会 魔术 般 地 显示 在 用 户 
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© Advanced CGI Demo 
€ Q fi | O localhost:8000/cg+-bin/adve 


Your Uploaded Data 


Your cookie value is: Hey, I got a cookie! 
Your name is: Wesley 
You can program in the following languages: 


* Python 
ec 


Your uploaded file... 
Name: bio.tvt 
Contents: 


WESLEY J. CHUN, MSCS, is the author of "Core Python Programming" & 
co-author of "Python Web Development with Django". In addition to 
being an engineer, he runs CyberWeb, a consultancy specializing in 
Python education. Wesley has 254 years of programming, teaching, & 
writing, including more than a decade of Python. While at Yahoo!, 
he helped create Yahoo!Mail & Yahoo! People Search using Python. 
Wesley holds degrees in Computer Science, Mathematics, and Music 
from the University of California. 


Click here to return to form 











X 








10-13 ”高 级 CGI MAE SJ R h 

















© Advanced CGI Demo 


€ Q fi Olocahost:8000/e9-bin/adve: 
Advanced CGI Demo Form 
My Cookie Setting 

* cPPuser = Hey, I got a cookie! 


Enter cookie value 


Hey, | got a cookie! (optional) 


Enter your name 


Wesley (required) 


What languages can you program in? (at least one required) 


M Python [^ Ruby [^ Java F^. C++ D PHP M C F^ JavaScript 


Enter file to upload 


Choose File | No file chosen 
Submit | 








Ds 














10-14 ”新 表单 页 面 ， 其 中 含有 从 cookie 中 载 入 的 数据 ， 但 没有 上 传 过 的 文件 


相信 读者 现在 已 经 迫不及待 地 想 查看 这 个 程序 了 ， 详 见 示例 10-7。 
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示例 10-7 高 级 CGI 应 用 〈advcgi.py) 


这 段 代 码 中 有 个 做 了 较 多 工作 的 主 类 AdvcGI。 其 中 包括 用 于 显示 表单 、 错 误 消 息 或 结果 页 面 的 方法 ， 以 及 用 来 在 













































































客户 端 〈 即 web 浏览 器 ) 之 间 读 写 cookie 的 方法 。 


gw 人 了 宁 w 上 已 一 


#!/usr/bin/env python 


from cgi import FieldStorage 

from os import environ 

from cStringIO import StringIO 
from urllib import quote, unquote 


class AdvCGI(object): 
header = 'Content-Type: text/html\n\n' 
url = '/cgi-bin/advcgi.py' 


formhtm] = '''<HTML><HEAD><TITLE> 
Advanced CGI Demo</TITLE></HEAD> 
<BODY><H2>Advanced CGI Demo Form</H2> 
«FORM METHOD=post ACTION="%s" ENCTYPE="multipart/form-data"> 
<H3>My Cookie Setting</H3> 
<LI> <CODE><B>CPPuser = %s</B></CODE> 
<H3>Enter cookie value<BR> 
<INPUT NAME=cookie value="%s"> (<I>optional</I>)</H3> 
<H3>Enter your name<BR> 
<INPUT NAME=person VALUE="%s"> (<I>required</I>)</H3> 
<H3>What languages can you program in? 
(<I>at least one required</I>)</H3> 
%S 
<H3>Enter file to upload <SMALL>(max size 4K)</SMALL></H3> 
<INPUT TYPE=file NAME=upfile VALUE="%s" SIZE=45> 
<P><INPUT TYPE=submit> 
«/FORM»«/BODY»«/HTML» ' ' ' 


langSet = ('Python', 'Ruby', 'Java', 'C++', 'PHP', 'C', 
'JavaScript') 
langItem = '«INPUT TYPE=checkbox NAME-lang VALUE="%s"%s> %s\n' 


def getCPPCookies(self): # reads cookies from client 
if 'HTTP COOKIE' in environ: 
cookies = [x.stripQ for x in environ['HTTP 
COOKIE'].split(';')] 
for eachCookie in cookies: 
if len(eachCookie)»6 and eachCookie[:3]--'CPP': 
tag - eachCookie[3:7] 
try: 
self.cookies[tag] = eval(unquote( 
eachCookie[8:])) 
except (NameError, SyntaxError): 
self.cookies[tag] = unquote( 
eachCookie[8:]) 
if 'info' not in self.cookies: 
self.cookies['info'] = '' 
if 'user' not in self.cookies: 
self.cookies['user'] = '' 
else: 
self.cookies['info'] = self.cookies['user'] = '' 
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if self.cookies['info'] != '': 
self.who, langStr, self.fn = self.cookies['info'].split(':') 
self.langs = langStr.split(',') 
else: 
self.who = self.fn=' ' 
self.langs - ['Python'] 


def showForm(self): 
self.getCPPCookies () 


# put together language checkboxes 
langStr = [] 
for eachLang in AdvCGI.langSet: 
langStr.append(AdvCGI.langItem % (eachLang, 
' CHECKED' if eachLang in self.langs else '', 
eachLang)) 


# see if user cookie set up yet 

if not ('user' in self.cookies and self.cookies['user']): 
cookStatus = '«I»(cookie has not been set yet)</I>' 
userCook = '' 

else: 
userCook = cookStatus = self.cookies['user'] 


print '%s%s' 96 (AdvCGI.header, AdvCGI.formhtml % ( 
AdvCGI.url, cookStatus, userCook, self.who, 
''.joinClangStr), self.fn)) 


errhtm] = '''<HTML><HEAD><TITLE> 
Advanced CGI Demo</TITLE></HEAD> 
<BODY><H3>ERROR</H3> 
<B>%s</B><P> 
<FORM><INPUT TYPE=button VALUE=Back 
ONCLICK="window. history.back()"></FORM> 
</BODY></HTML>''' 


def showError(self): 
print AdvCGI.header + AdvCGl.errhtm] % (self.error) 


reshtm] = '''<HTML><HEAD><TITLE> 
Advanced CGI Demo</TITLE></HEAD> 
<BODY><H2>Your Uploaded Data</H2> 
<H3>Your cookie value is: <B>%s</B></H3> 
<H3>Your name is: <B>%s</B></H3> 
<H3>You can program in the following languages:</H3> 
<UL>%s</UL> 
<H3>Your uploaded file...<BR> 
Name: <I>%s</I><BR> 
Contents :</H3> 
<PRE>%s</PRE> 
Click <A HREF="%s"><B>here</B></A> to return to form. 
</BODY></HTML>''' 


def setCPPCookies(self):# tell client to store cookies 
for eachCookie in self.cookies.keysO: 
print 'Set-Cookie: CPP%s=%s; path=/' 96 N 
(eachCookie, quote(self.cookies [eachCookie])) 
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108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 


def doResults(self):# display results page 


MAXBYTES - 4096 
langList = ''.joinC 

"<LI>%s<BR>' % eachLang for eachLang in self.langs) 
filedata = self.fp.read(MAXBYTES) 
if len(filedata) == MAXBYTES and f.readQ): 

filedata = '%s%s' % (filedata, 

'... <B><I>(file truncated due to size)</I></B>') 

self. fp.closeO 
if filedata == '': 

filedata = <B><I>(file not given or upload error)</I></B> 
filename = self.fn 


# see if user cookie set up yet 

if not ('user' in self.cookies and self.cookies['user']): 
cookStatus = '<I>(cookie has not been set yet)</I>' 
userCook = '' 

else: 
userCook = cookStatus = self.cookies['user'] 


# set cookies 
self.cookies['info'] = ':'.joinC 

(self.who, ','.join(self.langs, ','), filename)) 
self.setCPPCookies() 


print '%s%s' % (AdvCGI.header, AdvCGI.reshtml % C 
cookStatus, self.who, langList, 
filename, filedata, AdvCGI.url) 


def go(self): # determine which page to return 


'cookie' 


self.cookies = {} 

self.error = '' 

form = FieldStorage() 

if not form.keysQ: 
self.showForm() 
return 


if 'person' in form: 
self.who = form['person'].value.stripQ.titleQ 
if self.who == '': 
self.error = 'Your name is required. (blank)' 
else: 
self.error = 'Your name is required. (missing) ' 


self.cookies['user'] = unquote(form['cookie'].value.stripQ) if 
in form else '' 
if 'lang' in form: 
langData = form['lang'] 
if isinstance(langData, list): 
self.langs = [eachLang.value for eachLang in langData] 
else: 
self.langs = [langData.value] 
else: 
self.error = 'At least one language required. ' 


if 'upfile' in form: 
upfile - form['upfile'] 
self.fn = upfile.filename or '' 
if upfile.file: 
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166 self.fp = upfile.file 

167 else: 

168 self.fp = StringIO(' (no data) ') 
169 else: 

170 self.fp = StringIO('(no file)') 
171 self.fn = '' 

172 

173 if not self.error: 

174 self.doResults() 

175 else: 

176 self.showError() 

177 

178 if name == ' main ': 





179 page = AdvCGI() 
180 page.go() 














advcgi.py 和 本 章 前 部 分 提 到 的 CGI 脚本 friendsC.py 非常 像 ， 可 以 返回 表单 页 面 、 结 果 
页 面 、 错 误 页 面 。 除 了 新 的 脚本 中 所 有 的 高 级 CGI 特性 外 ， 还 在 脚本 中 增加 了 更 多 的 面向 对 
象 特 性 ， 即 用 类 和 方法 代替 了 一 系列 的 函数 。 对 类 来 说 ， 页 面 的 HTML 文本 是 静态 数据 ， 意 
味 着 它们 在 实例 中 都 是 以 常量 出 现 的 ， 虽 然 这 里 仅 有 一 个 实例 。 

逐 行 解释 

第 1~6 47 

这 里 是 普通 的 起 始 行 和 模块 导入 行 。 唯 一 可 能 不 太 熟 悉 的 模块 是 StringIO 类 。 这 是 一 个 
类 似 文件 的 数据 结构 ， 其 核心 元 素 是 字符 串 ， 可 以 理解 为 内 存 中 的 文本 流 。 

在 Python 2 中 ， 可 以 在 StringIO 或 等 价 的 cStringIO 模块 中 找到 这 些 类 。 在 Python 3 中 ， 
这 些 类 移 到 了 io 模块 中 。 与 之 类 似 ，Python 2 中 的 urllib.quoteO 8I urllib.unquoteO 函 数 在 
Python3 中 移 到 了 urllib.parse 4! 

第 8 一 28 ÍF 
在 声明 AdvCGI 类 之 后 ， 创 建 了 header 和 url (静态 类 ) 变量 ， 在 显示 不 同 页 面 的 方法 中 会 
到 这 些 变量 。 下面 是 HTML 静态 文本 表单 , 其 中 含有 编程 语言 设置 和 每 种 语言 的 HTML 元 素 。 

第 33—55 行 
这 个 例子 用 到 了 cookie。 下 面 还 有 setCPPCookies(0) 方 法 ， 应 用 程序 会 调用 这 个 方法 来 发 
送 cookie (M Web 服务 器 ) 到 浏览 器 ， 并 存储 在 浏览 器 中 。 

getCPPCookiesO 所 做 的 刚好 相反 。 当 浏览 器 对 应 用 进行 连续 调用 时 ， 这 个 方法 将 相同 的 
cookie 通过 HTTP 头发 送 回 服务 器 。 在 应 用 执行 时 ， 应 用 可 以 通过 HTTP. COOKIE 环境 变量 
访问 到 这 些 值 。 

这 个 方法 解析 cookie， 特 别 是 寻找 以 CPP 开头 的 字符 串 〈 第 37 行 )。 在 这 个 例子 中 ， 只 查 
找 名 为 “CPPuser” 和 “CPPinfo” 的 cookie。 键 “user” 和 “info” 在 第 38 行 提取 为 标签 。 跳 
过 了 索引 7 处 的 等 号 ,在 第 39~42 行 去 除了 索引 8 处 的 值 并 进行 计算 , 计算 结果 保存 到 Python 
对 象 中 。 异 常 处 理 程序 查看 cookie 负载 ， 对 于 非法 的 Python 对 象 ， 仅 仅 是 保存 相应 的 字符 串 
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值 。 如 果 这 个 cookie 丢失 ， 就 会 给 它 指定 一 个 空 字 符 串 (第 43 一 48 行 )。getCPPCookies() 方 法 
只 会 被 showEFormO 调 用 

































































在 这 个 简单 的 例子 中 自行 解析 cookie， 但 对 于 复杂 的 应 用 ， 一 般 使 用 Cookie 模块 〈 在 





Python 3 中 重 命 














命名 为 http.cookies) 来 完成 这 个 任务 。 








与 之 类 似 , 如 果 在 编写 Web 客户 端 , 需要 管理 浏览 器 存储 的 所 有 cookie( 一 个 cookie jar), 
并 与 Web 服务 器 通信 , 可 能 会 需要 用 到 cookielib 模块 (在 Python 3 中 重 命名 为 http.cookiejar)。 


第 571—164T 










































































showForm() 和 doReusltsO 都 会 调用 法 ， 用 来 检查 是 否 设置 了 用 户 提 











供 的 cookie 值 。 








表单 和 结果 的 HTML 模板 都 会 显示 这 个 值 。 















































bc RN UE d ee eee 
的 请 求 中 〈 如 果 有 ) 获取 cookie， 并 适当 地 调整 表单 的 格式 。 

















第 78 一 87 行 








这 块 代码 





第 89—101 

















来 生成 错误 页 面 。 


行 

















] 于 结果 页 面 的 HTML 模板 。doResults0 会 用 到 这 些 代码 ， 用 于 填充 所 有 需要 





这 只 是 个 


的 数据 。 


















































第 102—135 £r 
一 块 代 码 会 创建 结果 页 面 。setCPPCookies() 方 法 请 求 客户 端 为 应 用 程序 存储 cookie, 


doResults(0) 方 法 将 所 有 数据 放 在 一 起 发 送 回 客户 端 。 
g00 方 法 会 调用 doResults(), 










































































于 处 理 主要 任务 ， 以 输出 数据 。 在 这 个 方法 的 第 一 部 分 



































(第 109—119 4 

















)， 用 于 处 理 用 户 数据 ， 即 选择 的 编程 语言 集 (至 少 需要 选择 一 个 ， 详 见 go) 


















































方法 )、 上 传 的 文件 以 及 用 户 提供 的 cookie 值 ， 后 两 者 都 是 可 选 的 。 
doResults() 的 最 后 一 步 ( 第 128—135 行 ) 将 所 有 数据 打包 到 单个 “CPPinfo”cookie 中 ， 





为 后 面 做 准备 ， 





















































并 根据 数据 泻 染 结果 模板 。 





第 137~ 180 4r 
这 段 代码 首先 实例 化 一 个 AdvCGI 页 面 对 象 ， 接 着 调用 其 中 的 go0 方 法 开始 工作 。go0 





方法 用 于 读 取 所 有 将 要 到 达 的 数据 并 确定 显示 哪个 页 面 。 

如 果 没 有 给 出 名 字 或 选 定语 言 ， 则 会 显示 错误 页 面 。 如 果 没 有 收 到 任何 输入 数据 ， 将 调 
用 showForm() 方 法 来 输出 表单 ;否则 ， 将 调用 doResults() 方 法 来 显示 结果 页 面 。 通 过 设置 
self.error 变量 可 以 创建 错误 页 面 ,这样 做 有 两 个 目的 。 一 是 可 以 将 错误 原因 设置 在 字符 串 里 ， 








二 是 可 以 作为 一 


person 字段 是 一 个 键 值 对 ， 处 理 方法 (第 145—150 行 ) 和 先前 看 到 的 一 样 。 但 在 收集 语 


































































































































































































个 标记 表明 有 错误 发 生 。 如 果 该 变量 不 为 空 ， 用 户 会 被 导向 到 错误 页 面 。 






























































言 信息 时 (第 153~160 行 ) 需要 一 点 技巧 ， 原 因 是 必须 检查 一 个 〈Mini) FieldStorage 实例 
或 一 个 包含 该 实例 的 列表 。 这 里 将 使 用 熟悉 的 isinstanceO 内 置 函 数 来 达到 目的 。 最 终 ， 会 获 
得 单个 或 多 个 语言 名 的 列表 ， 有 具体 依赖 于 用 户 的 选择 情况 。 













































































如 果 使 用 cookie 来 保管 数据 ,就 可 以 避免 使 用 
中 ， 将 这 些 值 作为 CGI 变量 传递 。 而 现在 只 使 
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王 何 类 型 的 CGI 字段 。 在 本 章 之 前 的 示例 
] cookie。 读 者 会 注意 到 获取 这 些 数据 的 代码 











没有 调用 CGI 处 理 ， 这 意味 着 数据 并 非 来 自 FieldStorage 对 象 。Web 客户 端的 每 次 请 求 都 会 


发 送 相应 的 数据 ， 
有 信息 )。 


























中 的 值 从 cookie 中 获得 〈 包 括 用 户 的 选择 结果 和 用 来 填充 后 续 表 单 的 已 

















取得 了 新 的 输入 值 ， 所 以 该 方法 负责 设置 cookie， 例 





因为 showResultsQ 77 32; MA 

































































如 ,通过 调用 setCPPCookies(). 而 showForm0O 必 须 读 出 cookie 中 的 值 才 能 用 表单 页 显示 用 户 








的 当前 选项 。 这 通过 对 getCPPcookies() Hi 
最 后 ， 来 看 看 
































FieldStorage 都 会 从 file 属性 中 获得 一 个 文 但 
它 设置 成 空 字符 串 。 还 有 
只 读 一 行 或 者 其 他 更 慢 一 些 的 处 到 




































































在 这 个 例子 





























B, 3 EFE RAP 
doResultsO 函 数 ， 从 文件 ， 
A CE 112 行 )， 












































没有 必要 显示 一 个 4GB Rf 











如 果 读 者 读 过 本 书 之 前 的 版 本 ， 会 发 现 这 上 








E C$ 162 一 171 行 )。 不 论 一 个 文件 实际 上 是 否 已 经 上 传 ， 
。 在 第 171 行 ， 如 果 没 有 指明 文件 名 ， 就 把 
好 的 做 法 ， 可 以 访问 文件 指针 CHI file 属性 )， 并 且 可 以 每 次 








， 所 以 只 是 简单 地 把 文件 指针 传 给 
央 ，doResultsO 将 只 显示 文件 的 前 4KB 
BI SC TE s 























行 了 大 规模 的 重 构 。 以 前 





的 例子 很 老 ， 没 有 反映 出 当前 Python 中 的 做 法 。 这 个 改进 版 的 advcgi.py 不 能 在 2.5 之 前 

















运行 。 但 仍 可 以 从 本 书 的 网 站 中 看 到 之 前 





版 本 的 Python ! 
Python 3 版 本 。 


10.0 WSGI 


本 节 介 绍 WSGI 的 所 有 内 
Web 应 用 ， 而 无 须 在 意 这 个 应 用 


10.6.1 动机 替代 CGI) 
现在 读者 已 经 对 CGO ARATA H 

































































io 























知道 为 什么 需要 CGI. 


版 本 的 代码 ， 以 及 对 应 的 





第 二 部 分 将 介绍 如 何 编写 





























因为 服务 器 无 法 创建 动态 




















内 容 ， 它 们 不 知道 用 
服务 器 必须 与 外 部 的 进程 通信 才 色 

本 章 前 2/3 部 分 讨论 了 CGI 如 何 解 决 这 个 问题 ， 
FE (类 似 Python 解释 器 ) 针对 每 个 请 









































信息 和 数据 ， 如 验 记 
EE 处理 这 些 自 定义 工作 。 




















行 账户 、 在 线 支 付 等 。Web 


























了 其 工作 原理 。 但 是 这 





























种 方式 无 法 扩展 , CGIi 



































方法 。 








如 果 应 用 程序 接收 数 干 个 请 求 ， 创 建 大 量 的 语言 解释 器 进程 





























求 进行 创建 , 用 完 就 抛弃 。 
民 快 就 会 导致 服务 器 停机 。 

















成 ， 二 是 外 部 进 


呈 。 下 面 分 别 介绍 这 两 种 








有 两 种 方法 可 以 解决 这 个 问题 ， 一 是 服务 器 外 
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10.6.2 ”服务 器 集成 


服务 器 集成 ， 也 称 为 服务 器 API。 这 其 
和 微软 的 因特网 服务 器 编程 接口 CISAPD 3X fh 
期 开始 ) 应 用 最 广泛 的 服务 器 解决 方案 是 Apache HTTP Web 服务 器 , 这 是 一 个 
有 一 个 服务 器 API. Sb, ii 
这 些 组 件 可 以 扩展 服务 器 的 功能 和 用 途 。 























R, EPK Apache, $ 














译 后 的 组 件 ， 







































































包括 如 Netscape 服务 器 应 月 
fF 的 商业 解决 方案 。 











编程 接口 (NSAPI) 








当前 (从 20 世纪 90 年 代 中 




















术语 模块 来 描述 服务 








开源 的 解决 方 
器 上 插入 的 纺 





所 有 这 三 个 针对 CGI 性 能 的 解决 方案 都 将 网 关 集 成 进 服务 器 。 换 句 话说 ， 不 是 将 服务 器 


切 分 成 多 个 语言 解释 器 来 分 别处 理 请 求 ， 而 是 生成 函数 调用 ， 
进行 响应。 服务 器 根据 对 应 的 











程 ! 




















API 通过 一 组 预先 创建 的 











可 以 根据 所 支持 应 用 的 需求 i 
、 虚 拟 主机 等 功能 。 

任何 方案 都 有 缺点 ， 对 于 服务 器 API， 这 种 方式 会 带 来 许多 问题 ， 如 含有 bug 的 
代码 会 影响 到 服务 器 实现 执行 效率 ， 不 同 语言 的 实现 无 法 完全 : 











代理 








当然 ， 






































程序 代 











运行 应 | 















































A, mæ API 























Web 服务 器 实现 相同 的 乡 


ihe = » © 






































IRE APD, M 











程序 必须 是 线程 安全 的 ， 等 等 。 





10.6.3 ”外 部 进程 





男 一 个 解决 方案 是 外 部 i 
务 器 将 这 个 请 求 传递 到 外 部 进程 中 。 























程 。 








这 是 让 CGI 











NY 


JE HR AS a8 9 
这 种 方式 的 可 扩展 性 比 纯 




















程序 需要 整合 到 商业 解决 方案 中 (如果 没 有 





CGI 要 好 ， 因 为 
































的 时 间 很 长 ， 而 不 是 处 理 完 单个 请 
FastCGI。 有 了 外 部 进程 ， 就 可 以 利用 服务 器 API 的 好 处 ， 同 时 避免 了 其 缺点 。 











器 外 部 运行 就 可 以 自 























求 后 就 终止 。 使 ) 











外 部 











选择 实现 语 

















与 财源 的 商业 软件 结合 








很 











mod_snkae、mod_python 等 )， 其 ! 


案 ， 组 成 了 各 种 Web 服务 器 API 网 关 解 决 方案 ， 以 调用 























由 于 使 





定 与 Web 服务 器 的 集成 。 实 际 上 ， 在 编 


以 相应 的 方式 执行 。 





对 于 Web 框架 


起 来 。 


自然 , FastCGI 有 Python KIN, BRIE ZY 























有 些 已 经 不 再 




















言 ， 应 用 程序 的 缺陷 不 





























了 不 同 的 调用 机 制 ， 所 以 开发 者 有 了 新 的 负担 。 不 仅 要 开发 应 











程 最 ) 











部 运行 。 当 有 请 


码 ， 在 运行 过 





程 或 线程 来 处 理工 作 。 大 部 分 
行 相应 的 调整 。 例 如 ， 服 务 器 一 般 还 会 提供 压缩 数据 、 安 全 、 

















开发 者 使 用 与 
使 用 开源 
































求 进 入 时 ， 服 
外 部 进程 存在 





为 人 知 的 解决 方案 是 





比如 ， 在 服务 





会 影响 到 Web 服务 器 ,不 需要 必须 
































Python Web 应 用 程序 








还 有 Apache 的 其 他 Python 模块 (如 PyApache、 
维护 了 。 所 有 这 些 模块 加 上 纯 CGI 解决 方 


JA, XS 









































写 应 用 时 ， 就 需 








要 完全 知道 最 后 会 使 


























Tf 发 者 ， 问 题 就 更 加 突出 了 
































强迫 他 们 开发 多 版 本 的 应 月 
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Server Gateway Interface, WSGD 标准 的 建立 。 


， 由 于 需要 给 予 月 

















JUI PUB), Jf 








户 最 大 的 灵活 性 。 如 果 不 想 
日 ， 就 必须 为 所 有 服务 器 解决 方案 提供 接口 ， 以 此 来 让 更 多 的 用 广 
采用 你 的 框架 。 这 个 困境 看 起 来 绝 不 是 Python 的 风格 ,就 导致 了 Web 服务 器 网 类 接口 




















JH 
(Web 





10.6.4 WSGI 简介 
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WSGI 不 是 服务 器 ， 也 不 是 用 了 
一 个 接口 。WSGI 规范 作为 PEP 333 于 2003 年 创建 ， 用 于 处 到 
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EH 28 


Web 服务 器 ， 及 其 他 调用 方式 (如 纯 CGI、 服 务 器 API、 外 部 进程 )。 

















其 目标 是 在 Web 服务 器 和 Web 框架 层 之 间 提 供 一 个 通 月 
作 性 并 形成 统一 的 调用 方式 。WSGI 
Web 服务 器 都 兼容 WSGI。 将 WSGI 作为 标准 对 应 






















































































根据 WSGI 定义 ， 其 应 用 是 可 调用 的 对 象 ， 其 参数 固定 为 以 下 两 个 : 
环境 变量 的 字典 , 男 一 个 是 可 调用 对 象 , 该 对 象 使 用 
头 来 初始 化 啊 应 。 这 个 可 调用 对 象 必 须 返 回 一 个 可 迭代 对 象 ) 














































































































刚 出 现 就 得 到 了 广泛 应 用 
ITT RE 
































HE 











与 程序 交互 的 API， 更 不 是 真实 的 代码 ， 而 只 是 定义 的 


多 的 不 同 Web 框架 、 





HAY API 标准 ， 减 少 之 间 的 互 操 
基本 上 所 有 基于 Python 的 
架 作 者 和 社区 都 有 帮助 。 

一 个 是 含有 服务 器 






































HTTP 状态 码 和 会 返回 给 客户 端的 HTTP 
于 组 成 响应 负载 。 


在 下 面 这 个 WSGI 应 用 的 “Hello World” 示 例 中 ， 这 些 内 容 分 别 命 名 为 environ 变量 和 











start_response()。 


def simple wsgi app(environ, start response): 


status = '200 OK' 


headers = [('Content-type', 'text/plain')] 


start response (status 
return ['Hello world! 


, 


'] 


headers) 








environ 变量 包含 一 些 熟 悉 的 环境 变量 ， 如 HTTP HOST. HTTP_USER_AGENT, 


SERVER_PROTOCOL 等 。 而 start_response() 这 个 可 调 月 
送 回 客户 端的 响应 。 响 应 必须 含有 HTTP 返回 




















在 这 个 第 1 版 的 WSGI 标准 ! 


























，gsftart_response(O 还 应 该 






































































































































对象 必须 在 应 
fij (200. 300 等 )， 以 及 HTTP 响应 头 。 

返回 一 个 write0 函 数 ， 以 便 支 持 遗 
S HJ WSGI 时 只 返回 可 迭代 对 象 ， 让 Web 服务 器 负责 
程序 处 理 这 些 不 精通 的 事情 )。 由 于 这 些 原 因 ， 大 多 
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关于 start_response() 最 后 一 位 





> 





















































Forbidden” zk “500 Internal Server Error”. 
为 了 做 到 这 一 点 ， 可 以 假设 应 用 使 用 一 对 正常 的 参数 开始 执行 。 当 发 生 错 误 时 ， 会 再 次 
调用 start_response0， 但 会 将 新 的 状态 码 与 HTTP 头 和 exc_info 一 起 传 入 ， 蔡 换 原 有 的 内 容 。 















































传递 给 start_response(0)， 来 正式 启动 响应 。 返 回 的 内 容 必须 是 可 迭代 的 ， 如 
它们 生成 实际 的 响应 负载 。 在 这 个 例子 i 
更 多 数据 。 除 了 返回 列表 之 外 ， 还 可 以 返回 


， 只 返回 含有 单个 字符 串 的 列表 ， 
他 可 友 代 对 象 ， 如 生成 器 或 其 
事 是 其 第 三 个 参数 ， 这 是 个 可 选 参数 ， 这 个 参数 含有 异 
常 信息 ， 通 常 大 家 知道 其 缩写 exc_info。 如 果 应 用 将 HTTP 头 设 置 为 “200 OK”( 但 还 没 
有 发 送 )， 并 且 在 执行 过 程 中 遇 到 问题 ， 则 可 以 将 HTTP 头 改 成 其 他 内 容 ， 如 “403 




















留 服务 器 ， 此 时 生成 的 是 数据 流 。 建 议 
管理 数据 并 返回 给 客户 端 (而 不 是 让 应 
数 应 用 并 不 使 用 或 保存 start_response0 的 返回 值 ， 只 是 简单 将 其 抛弃 。 
在 前 面 的 例子 中 ， 可 以 看 到 其 中 设置 了 200 状态 码 ， 以 及 Content-Type 头 。 这 些 信息 都 


列表 、 生 成 器 等 ， 
但 其 实 可 以 返回 


执行， 生成 最 终 会 发 












































他 可 调用 实例 。 
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如 果 第 二 次 调用 时 start_response() 没 有 提供 exc_info， 则 会 发 生 错误 。 而 且 必 须 在 发 送 





HTTP 头 之 前 第 二 次 调用 start_response0。 如 果 发 送 完 HTTP 头 才 调 用 , 则 必须 抛 出 一 个 异常 ， 












































抛 出 类 似 exc_info[0]、exc_info[1] 或 exc_info[2] 等 内 容 。 
关于 start_response() 可 调用 对 象 的 更 多 内 容 ， 请 参考 http://www.python.org/dev/peps/ 
pep-0333/#the-start-response-callable 中 的 PEP 333。 


10.6.5 WSGI 服 务 器 


在 服务 器 端 ， 必 须 调用 应 用 (前面 已 经 介绍 了 )， 传 入 环境 变量 和 start_response() 这 个 可 




























































































调用 对 象 ， 接 着 等 待 应 用 执行 完毕 。 在 执行 完成 后 ， 必 须 获得 返回 的 可 途 代 对 象 ， 将 这 些 数 
据 返回 给 客户 端 。 在 下 面 这 段 代码 中 ， 给 出 了 一 个 具有 简单 功能 的 例子 ， 这 个 例子 演示 了 
WSGI 服务 器 看 起 来 会 是 什么 样子 的 。 


import StringIO 












































import sys 


def 


底层 的 月 


run wsgi app(app, environ): 
body = StringIO.StringIO() 


def start response(status, headers): 
body.write('Status: %s\r\n' % status) 
for header in headers: 
body.write('$s: %s\r\n' $ header) 


return body.write 


iterable = app(environ, start_response) 
try: 
if not body.getvalue(): 
raise RuntimeError("start_response() not called by app!") 
body.write('\r\n%s\r\n' $ '\r\n'.join(line for line in iterable) ) 
finally: 
if hasattr(iterable, 'close') and callable(iterable.close): 
iterable.close() 


sys.stdout.write (body.getvalue() ) 
sys.stdout.flush () 


民 务 器 /网 关 会 获得 开发 者 提供 的 应 用 程序 ， 将 其 与 envrion 字典 放 在 一 起 ， 











envrion 字典 含有 os.environ0 中 的 内 容 ， 以 及 WSGI 相关 的 wsig.* 环 境 变量 〈 参 见 PEP, 
但 不 包括 wsgi.input、wsig.errors、wsgi.version 等 元 素 )， 以 及 任何 框架 或 中 间 件 环境 变量 








(下 面 会 引入 
Pm. 




































































更 多 中 间 件 )。 使 用 这 些 内 容 来 调用 run_wsgi_appO0， 该 函数 将 响应 传送 给 客 
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事实 上 ， 应 用 开发 者 不 会 在 意 这 些 细节 。 如 创建 一 个 提供 WSGI 规范 的 服务 器 ， 并 为 应 
























































程序 提供 一 致 的 执行 框架 。 从 前 面 的 例子 中 可 以 看 到 ，WSGI 在 应 用 端 和 服务 器 端 有 明显 














的 界线 。 任 何 应 用 都 可 以 传递 到 上 面 描述 的 服务 器 (或 任何 其 他 WSGI 服务 器 ) 中 。 同 样 ， 









































回 给 客户 端 之 前 需要 执行 的 start_responseO 可 调用 对 象 。 
10.6.6 ”参考 服务 器 




















在 任何 应 用 中 ， 无 须 关 心 哪 种 服务 器 会 调用 这 个 应 用 。 只 须 在 意 当 前 的 环境 ， 以 及 将 数据 返 





前 面 提 到 过 ， 不 应 该 强迫 应 用 开发 者 编写 服务 器 ， 所 以 不 应 该 创建 并 编写 类 似 
run_wsgi_appO 这 样 的 代码 ， 而 是 应 该 能 够 选择 任何 WSGI 服务 器 ， 如果 都 不 行 ,， Python 在 标 




















准 库 中 提供 了 简单 的 参考 服务 器 : wsgiref.simple server. WSGlIServer. 





























可 以 用 这 个 类 直接 构建 一 个 服务 器 。 然 而 ，wsgiref 包 提 供 了 一 个 方便 的 函数 ， 即 
































make_server()， 通 过 这 个 函数 可 以 部 署 一 个 用 于 简单 访问 的 参考 服务 器 。 下 面 的 示例 应 用 





Csimple_wsgi_appO) 完成 了 这 个 任务 。 
#!/usr/bin/env python 
from wsgiref.simple server import make server 
httpd - make server('', 8000, simple wsgi app) 


print "Started app serving on port 8000..." 
httpd.serve forever() 


























这 里 获得 前 面 创建 的 应 用 ， 将 simple_wsgi_appO 封 装 到 服务 器 中 并 在 8000 端口 运行 ， 局 









































动 服务 器 循环 ,如 果 在 浏览 器 (或 其 他 可 以 访问 [host, pord 对 的 工具 ) 中 访问 http:Wlocalhost:8000， 














可 以 看 到 以 纯 文本 形式 的 “Hello World!” 输 出 。 

















对 于 懒 人 来 说 ， 无 须 编 写 应 用 或 服务 器 。wsgiref 模块 还 有 一 个 示例 应 用 ， 即 














wsgiref.simple_server.demo_app()。 这 个 demo_app0 与 simple_wsgi_appO 几 乎 相同 ， 只 是 其 还 




















会 显示 环境 变量 。 下 面 是 在 参考 服务 器 中 运行 这 个 示例 应 用 的 代码 。 


#!/usr/bin/env python 





from wsgiref.simple server import make server, demo app 


httpd = make server('', 8000, demo app) 
print "Started app serving on port 8000..." 
httpd.serve forever() 


局 动 一 个 CGI 服务 器 ， 接 着 浏览 应 用 










































































这 只 是 兼容 WSGI 服务 器 的 参考 模型 。 它 不 具有 完整 功能 或 也 不 打算 在 生产 环境 中 使 用 ， 











应 该 可 以 看 到 “Hello World!” 输 出 以 及 环境 变量 转 储 。 


` 





Bí 



































但 服务 器 创建 者 可 以 以 此 为 蓝本 ， 创 建 自己 的 兼容 WSGI 的 服务 器 。 应 ) 
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demo_appO 当 作 参 考 ， 来 实现 兼容 WSGI 的 应 用 。 





Ff 发 者 可 以 将 
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10.6.7 WSGI 应 用 示例 


前 面 已 经 提 到 ,WSGI 现在 已 经 是 标准 了 ， 几 乎 所 有 Python Web 框架 都 支持 它 ， 虽然 有 些 


从 表面 上 看 不 出 来 。 PIU. Google App Engine 处 理 程序 类 , 在 正常 导入 后 , 可 能 看 到 如 下 代码 。 






































class MainHandler (webapp.RequestHandler): 
def get (self): 


self.response.out.write('Hello world!') 


application = webapp.WSGIApplication([ 
('/', MainHandler)], debug-True) 
run wsgi app(application) 
不 是 所 有 框架 都 是 这 种 模式 ， 但 可 以 清楚 地 看 到 WSGI 的 引用 。 为 了 进一步 比较 ， 可 以 
深入 底层 ， 在 App Engine 的 Python SDK 中 ， 以 及 在 webapp 子 包 的 util.py 模块 中 ， 可 以 看 
到 run_bare_wsgi_appO 函 数 。 其 中 的 代码 与 simple_wsgi_appO 非 常 像 。 


10.6.8 ”中国 件 及 封装 WSGI 应 用 


在 某 些 情况 下 ， 除 了 运行 应 用 本 身 之 外 ， 还 想 在 应 用 执行 之 前 (处 理 请 求 ) 或 之 后 (发 
送 响应 ) 添加 一 些 处 理 程序 。 这 就 是 熟知 的 中 间 件 ， J FÆ Web 服务 器 和 Web 应 用 之 间 
添加 额外 的 功能 。 中 间 件 要 么 对 来 自用 户 的 数据 进行 预 处 理 ， 然 后 发 送 给 应 用 ;要么 在 应 用 
将 响应 负载 返回 给 用 户 之 前 ， 对 结果 数据 进行 一 些 最 终 的 调整 。 这 种 方式 类 似 洋 巧 结构 ， 应 
程序 在 内 部 ， 而 额外 的 处 理 层 在 周围 。 
预 处 理 可 以 包括 动作 ， 如 拦截 、 修 改 、 添 加 、 移 除 请 求 参数 ， 修 改 环境 变量 〈 包 括 用 户 
提交 的 表单 (CGD 变量 )， 使 用 URL 路 径 分 派 应 用 的 功能 ， 转 发 或 重 定 向 请 求 ， 通 过 入 站 
客户 端 IP 地 址 对 网 络 流量 进行 负载 平衡 ， 委 托 其 功能 〈 如 使 用 User-Agent 头 向 移动 用 户 发 
送 简化 过 的 UL 应 用 )， 以 及 其 他 功能 。 

而 后 期 处 理 主 要 包括 调整 应 用 程序 的 输出 。 下 面 这 个 示例 类 似 第 2 章 创 建 的 时 间 惟 服务 
器 ， 其 中 对 于 应 用 返回 的 每 一 行 结果 ， 都 会 添加 一 个 时 间 戳 。 在 实际 中 ， 这 会 更 加 复杂 ， 但 
大 致 方式 都 相同 , 如 添加 将 应 用 的 输出 转 为 大 写 或 小 写 的 功能 .这 里 使 用 ts_simple_wsgi_appO 
封装 了 simple_wsgi_appO0， 将 前 者 作为 应 用 注册 到 服务 器 中 。 


!/usr/bin/env python 
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from time import ctime 


from wsgiref.simple server import make server 


def ts simple wsgi app(environ, start response): 
return ('[%s] $s' $ (ctime(), x) for x in \ 


simple wsgi app(environ, start response)) 
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httpd = make server('', 8000, ts simple wsgi app) 
print "Started app serving on port 8000..." 
httpd.serve forever() 















































如 果 需 要 进行 更 多 的 处 理工 作 ， 可 以 使 用 类 封装 ， 而 不 是 前 面 的 函数 封装 。 此 外 ， 由 于 
添加 了 封装 的 类 和 方法 ， 因 此 还 可 以 将 environ 和 start_response() 整 合 到 一 个 元 组 变量 中 ,使 






























































这 个 元 组 作为 参数 来 减少 代码 量 〈 见 下 面 示 例 中 的 stuff). 


class Ts ci wrapp(object): 





lm 





def __init__(self, app): 
self.orig app - app 


def _ call (self, *stuff): 
return ('[$s] $s' $ (ctime(), x) for x in 


self.orig app(*stuff)) 


httpd - make server('', 8000, Ts ci wrapp(simple wsgi app)) 
print "Started app serving on port 8000..." 
httpd.serve forever() 





这 个 类 命名 为 Ts_ci_wrapp， 这 是 “timestamp callable instance wrapped application” Hyff 
称 ， 该 类 会 在 创建 服务 器 时 实例 化 。 其 初始 化 函数 将 原先 的 应 用 作为 输入 ， 并 缓存 它 以 备 后 
。 当 服务 器 执行 应 用 程序 时 ， 和 之 前 一 样 ， 它 依然 传 入 environ 字典 和 start. responseO RT Val 
用 对 象 。 由 于 做 了 一 些 改动 ， 程 序 会 调用 示例 本 身 〈 因 为 定义 了 __call_() 方 法 . environ 和 
start_response() 都 会 通过 stuff 传递 给 原先 的 应 用 。 

尽管 在 这 里 使 用 了 可 调用 实例 ， 而 前 面 使 用 的 是 函数 ， 但 也 可 以 使 用 其 他 可 调用 对 象 。 还 
要 记 住 ， 后 面 几 个 例子 都 没有 以 任何 方式 修改 simple_wsgi_app0。WSGI 的 主旨 是 在 Web 应 用 
和 Web 服务 器 之 间 做 了 明显 的 分 割 。 这 样 有 利于 分 块 开发 ， 让 团队 更 方便 地 划分 任务 ,让 Web 
谱 用 能 以 一 致 且 灵活 的 方式 在 任何 兼容 WSGI 的 后 端 中 运行 。 同 时 无 论 用 户 使 用 (Web) 服务 

器 软件 运行 什么 应 用 程序 ，Web 服务 器 开发 者 都 无 须 处 理 任何 自 定义 或 特定 的 hook. 


10.6.9 在 Python 3 中 使 用 WSGI 


PEP 333 为 Python 3 定义 了 WSGI 标准 。PEP 3333 是 PEP 333 的 增强 版 ， 为 Python 3 带 
来 了 WSGI 标准 。 具 体 来 说 ， 就 是 所 有 网 络 流量 以 字 节 形式 传输 。 在 Python 2 中 ， 字 符 串 原 
] 字 节 表 示 的 ， 而 在 Python 3 中 ， 字 符 串 Unicode 用 来 表示 文本 数据 ， 而 原先 的 ASCII 
EMAN bytes 类 型 。 
具体 来 说 ，PEP 3333 将 原生 字符 串 〈 即 str 类 型 ， 不 管 是 Python 2 还 是 Python 3 的 str) 用 
于 所 有 HTTP 头 和 对 应 的 元 数据 中 。 而 将 Ep 字符 串 用 在 HTTP 负载 〈 如 请 求 /响应 、 


GET/POST/PUS 输入 数据 、HTML 输出 等 ) 中 。 关 于 PEP 3333 的 更 多 信息 ， 请 参考 其 定义 ， 
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可 以 在 www.python.org/dev/peps/pep-3333/ 中 找到 它 。 

还 有 其 他 独立 于 PEP 3333 的 相关 提议 值得 一 读 。 其 中 一 个 是 PEP 444， 这 是 首次 尝试 定 
义 “WSGI2” 标 准 。 社 区 将 PEP 3333 看 作 “WSGI 1.0.1”， 即 原来 PEP 333 规范 的 增强 版 ， 
而 将 PEP 444 看 作 下 一 代 WSGI. 


10.7 ”现实 世 者 中 的 Web 开发 


CGI 是 过 去 用 来 开发 Web 的 方式 ， 其 引入 的 概念 至 今 仍 应 用 于 Web 开发 当中 。 因 此 ， 
这 就 是 为 什么 在 这 里 花 时 间 学 习 CGI。 而 对 WSGI 的 介绍 让 读者 更 接近 真实 的 开发 流程 。 

今天 , Python Web 开发 新 手 的 选择 余地 很 多 。 除了 著名 的 Django. Pyramid 和 Google App 
Engine 这 些 Web 框架 之 外 ， 用户 还 可 以 在 其 他 众多 的 框架 中 选择 。 实 际 上 ,框架 甚至 都 不 是 
必需 的 ， 直 接 使 用 Python， 不 用 任何 其 他 额外 的 工具 或 框架 特性 ， 就 能 开发 出 兼容 WSGI 的 
Web 服务 器 。 但 最 好 继续 使 用 框架 ， 这 样 可 以 方便 地 用 到 框架 提供 的 其 他 Web 功能 。 
现代 的 Web 执行 环境 一 般 由 多 线程 或 多 进程 模型 、 认 证 /安全 cookie、 基 本 的 用 户 验 证 、 
会 话 管理 组 成 。 普 通 应 用 程序 的 开发 者 都 会 了 解 这 其 中 大 部 分 内 容 。 验 证 表示 的 是 用 户 通过 
j 户 名 和 密码 进行 登录 ，cookie 用 来 维护 用 户 信息 ， 会 话 管理 有 时 候 也 是 如 此 。 为 了 使 应 用 
其 有 可 扩展 性 ，Web 服务 器 应 当 能 够 处 理 多 个 用 户 的 请 求 。 因 此 ， 需 要 用 到 多 线程 或 多 进程 。 
晶 会 话 在 这 里 还 没有 完全 涉及 。 

如 果 读 者 阅读 本 章 中 运行 在 服务 器 上 的 所 有 应 用 程序 代码 ， 那 么 就 需要 说 明 一 下 ， 脚 本 
从 头 到 尾 执行 一 次 ， 服 务 器 循环 永远 执行 ，Web 应 用 (Java 中 称 为 servlet) 针对 每 个 请 求 执 
行 。 代 码 中 不 会 保存 状态 信息 ， 前 面 已 经 提 到 过 ，HTTP 是 无 状态 的 。 换 句 话 说， 数据 是 不 
会 保存 到 局 部 或 全 局 变量 中 , 或 以 其 他 方式 保存 起 来 。 这 就 相当 于 把 一 个 请 求 当成 一 个 事务 。 
每 次 来 了 一 个 事务 ， 就 进行 处 理 ， 处 理 完 就 结束 ， 在 代码 库 中 不 保存 任何 信息 。 

此 时 就 需要 用 到 会 话 管理 ,会 话 管理 一 段 时 间 内 在 一 个 或 多 个 请 求 之 间 保存 用 户 的 状态 。 
般 来 说 ， 这 是 通过 某 种 形式 的 持久 存储 完成 的 ， 如 缓存 、 平 面 文件 “甚至 是 数据 库 。 开 发 
者 需要 自己 处 理 这 些 内 容 , 特别 是 编写 底层 代码 时 ， 本 章 中 已 经 见 到 过 这 些 代 码 。 毫 无 疑问 ， 
已 经 做 了 很 多 无 用 功 ， 因 此 许多 著名 的 大 型 Web 框 架 ， 包 括 Django， 都 有 自己 的 会 话 管理 软 
件 〈 下 一 章 将 介绍 Django 的 相关 内 容 。) 


10.8 ”相关 模块 


表 10-1 列 出 了 对 Web 开发 有 用 的 模块 。 还 可 以 参考 第 3 章 和 第 13 章 介 绍 的 模块 ， 这 些 
对 Web 应 用 都 很 有 用 。 
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? 没有 特殊 格式 的 非 二 进 制 文件 ， 如 XML。 一 一 译 者 注 
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表 10-1 Web 编程 相关 模块 
































































































































































































































模块 / 包 描 述 
Web 应 用 程序 
cgi 从 CGI 获取 数据 
cgitb^ 处 理 CGI 回溯 消息 
htmllib 于 解析 简单 HTML 文件 的 老 的 HTML 解析 器 ，HTMLParser 类 扩展 自 sgmllib.SGMLParser 
HTML parser^ 新 的 不 基于 SGML 的 HTML, XHTML 解析 器 
htmlentitydefs HTML 普通 实体 定义 
Cookie 于 HTTP 状态 管理 的 服务 器 端 cookie 
cookielib^ HTTP 客户 端的 cookie 处 理 类 
webbrowser” 控制 器 : 向 浏览 器 加 载 Web 文档 
sgmllib 解析 简单 的 SGML 文件 
robotparser^ 解析 robots.txt 文件 用 于 URL 的 “可 获得 性 ”分 析 
httplib 来 创建 HTTP 客户 端 
Web 服务 器 
BaseHTTPServer 来 开发 Web 服务 器 的 抽象 类 
SimpleHTTPServer 处 理 最 简单 的 HTTP 请 求 CHEAD 和 GET) 
CGIHTTPServer 既 能 像 SimpleHTTPServer 一 样 处 理 Web 文件 ， 又 能 处 理 CGI (HTTP POST) 请 求 
http.server^ Python 3 中 BaseHTTPServer 、 SimpleHTTPServer 和 CGIHTTPServer 模块 组 合 包 的 新 名 称 
wsgiref^ WSGI 参考 模块 
第 三 方 开发 包 〈 非 标准 库 ) 
BeautifulSoup 基于 正则 表达 式 的 HTML. XML 解析 器 ，http://crummy.com/software/BeautifulSoup 
html5lib HTML 5 解析 器 ，http://code.google.com/p/html5lib 
lxml 完整 的 HTML 和 XML 解析 器 (支持 以 上 两 种 解析 器 〉http://lxml.de 


@ Python 1.6 中 新 
@ Python 2.0 中 新 
@) Python 2.2 中 新 
@ Python 2.4 中 新 
@ Python 2.5 中 新 

















Python 3.0 中 新 


10.9 练习 


CGI 30 Web 应 用 


10-1 urllib 模块 和 文件 。 更 新 friendsC.py 脚本 ,让 
朋友 数量 各 为 一 列 存储 相关 信息 , 并 























可 以 访问 磁盘 里 的 文件 ， 以 姓名 和 
且 可 以 在 每 次 运行 脚本 的 时 候 持续 添加 姓名 。 
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10-2 


10-3 


10-4 


10-5 


10-6 
10-7 


10-8 


10-9 





选 做 题 : 增 
另 一 个 选 做 





告 一 个 错误 


选 做 题 : 








告 一 个 错误 。 


加 一 些 代码 把 这 种 文 们 
加 一 个 链接 ， 
错误 检查 。friendsC.py 脚本 在 没有 选择 人 
更 新 CGI 脚本 ， 在 如 果 没 有 输入 名 字 【〈 如 空 字 符 或 空白 ) 时 也 会 报 





题 ， 增 
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前 为 














F 的 内 容 转 储 到 Web 浏览 器 















































1 1H 


eX 











的 所 有 名 字 。 


























个 单 选 按钮 指定 朋友 的 





st 














有 (以 HTML 格式 )。 


数目 时 会 报 





上 探讨 的 仅 是 服务 器 端的 错误 检查 。 了 解 JavaScript 编程 ， 并 通 





过 创建 JavaScript 代码 来 同时 检查 错误 ， 以 确保 这 些 错误 在 到 达 服 务 




















这 样 便 实 
简单 CGI。 























反馈 , 在 fall 





并 将 其 保存 


a guestbooks entry” W E 


Web 浏览 器 











现 了 客户 端 错误 检查 。 
为 Web 站 点 创建 “Comments” 或 “Feedback” 页 面 。 由 
本 中 处 理 数据 ， 最 后 返回 
简单 CGI。 创 建 一 个 Web 客户 短 。 接 受 
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到 文件 








(格式 E 


























的 方式 管理 





Language Fundamentals 中 用 纯 文本 文件 的 方式 完成 了 练习 , 这 里 可 以 使 用 


练习 的 部 分 
选 做 题 ， 熟 














代码 。 
悉 Web 浏 

















选 做 题 : 允许 通过 Op 


WordPress， 





甚至 是 其 他 专 有 验 记 


一 个 “thank you” 页 面 。 
1P 8 NIA E. e-mail 地 址 、 
3). 类似 上 一 











器 前 终止， 





表 














单 获得 用 户 











志 项 
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练习 , 返回 一 个 “ 



































。 同 时 再 
































low te 
览 器 cookie, 














enID 进行 联合 验证 ， 人 允许 
ERA, Ww “Facebook Connect" BK “ 


























登录 ”来 登录 系统 ,还 可 以 月 


identitytoolkit F 2X). 


错误 消息 。 当 - 个 CGI 脚本 崩溃 时 发 生 了 什么 ?如 何 





给 用 户 提 供 
cookie 和 Web 站 点 注册 。 为 Web 站 点 添加 用 户 验 i 
户 姓 名 和 密码 ,读者 也 许 在 Core Python Programming 或 Core Python 





个 查看 客户 短 的 链接 。 
E 服 务 





























thanks for filling out 














。 使 用 加 密 


























并 在 最 后 登录 成 功 后 将 会 话 保持 4 
户 通过 Google、Yahoo!、AOL、 





















































] cgitb 模块 检测 





CGI、 文 件 更 新 及 Zip 文件 。 创 建 一 个 CGI 应 用 ， 它 不 仅 能 将 文件 保 





磁盘 中 ， 而 且 能 智能 解压 Zip XH 
Web 数据 库 应 用 程序 。 思 考 Web 数据 库 应 | 











F (或 其 他 存档 文 伯 











己 完 成 


个 小 时 。 


m 

















通过 Twitter 
H Google Identity Toolkit( M http://code. google.com/apis/ 


错误 消息 ? 


存 到 服务 器 









































的 应 | 
用 户 拥 





























程序 ， 需 要 授予 每 个 月 





登录 后 ， 显 示 出 来 的 页 
自己 的 条 目 ， 
设计 UserEntry 类 ， 为 1 
的 任何 代码 来 实现 这 个 注册 框架 。 最 后 , 使 
样 的 关系 数据 库 ， 或 更 简单 的 Python 





电子 商务 引 


以 支持 多 用 户 。 添 加 验证 系统 ， 以 及 表示 


有 写 入 权限 。 家 人 及 亲属 的 “地 址 短 ” 就 是 这 样 
用 应 该 有 几 个 选项 : 
以 及 查看 整个 条 















































该 类 的 每 个 实例 创建 一 个 数据 库 项 。 读 者 可 以 使 ) 








昌 户 访问 数据 库 全 部 内 容 的 权限 ， 












































(整个 数据 库 )。 
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E) 到 同名 子 文件 夹 中 。 
程序 所 需 的 数据 库 构架 。 对 于 多 用 户 
但 每 次 只 能 有 一 个 
个 例子 。 每 个 成 员 成 功 
添加 条 目 ， 查 看 、 更 新 、 移 除 或 删除 
前 面 练习 中 
任意 存 储 机 制 的 数据 库 ， 如 MySQL 这 
































持久 存储 模块 ， 如 anydbm 或 shelve。 
建立 一 个 通用 的 电子 商务 /在 线 购物 Web 服务 站 点 ， 并 可 以 改进 
] 户 和 购物 车 的 类 (如 果 读 者 有 Core 
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Python Programming 或 Core Python Language Fundamentals， 可 以 使 用 “面向 对 
象 编 程 ” 一 章 中 为 练习 4 和 练习 11 编写 的 代码 。 同 时 还 需要 管理 商品 ， 无 论 是 
可 见 的 货物 还 是 虚拟 的 服务 。 还 需要 添加 PayPal 或 Google 提供 的 付款 系统 。 在 
学 习 后 续 几 章 后 , 将 这 个 临时 的 CGI 解决 方案 移植 到 Django. Pyramid 或 Google 
App Engine 中 。 
10-10 Python 3。 检 查 friendsC.py 和 friendsC3.py 之 间 的 区 别 。 描 述 每 个 改动 。 
10-11 Python 3. Unicode/Text 与 Data/Bytes。 将 Unicode 示例 〈 即 uniCGI.py) 移植 到 



























































































































































Python 3 中 。 
WSGI 
10-12 ”背景 知识 。 什 么 是 WSGI? 为 什么 要 创建 WSGI? 
10-13 ”背景 知识 。 有 哪些 技术 可 以 弥补 CGI 可 扩展 性 方面 的 问题 ? 
10-14 ”背景 知识 。 举例 说 明 哪 些 著 名 的 框架 是 兼容 WSGI 的 , 再 了 解 一 下 哪些 框架 不 支 














10-15 ”背景 知识 。WSGI 和 CGI 有 什么 区 别 ? 

10-16 WSGI 应 用 。WSGI 应 用 可 以 是 哪些 类 型 的 Python 对 象 ? 

10-17 WSGI 应 用 。WSGI 应 用 程序 需要 哪 两 个 参数 ?详细 了 解 第 二 个 参数 。 

10-18 WSGI 应 用 。WSGI 应 用 可 能 会 返回 哪些 类 型 的 数据 ? 

10-19 WSGI 应 用 。 练习 10-1 一 练习 10-11 的 解决 方案 只 可 用 于 以 CGI 方式 处 理 表单 数 
据 的 服务 器 。 选 择 其 中 一 个 练习 ， 将 其 导入 WSGI 中 ， 这 样 就 可 以 在 任何 兼容 
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10-20 WSGI 服务 器 。10.6.5 节 介绍 的 WSGI 服务 器 提供 了 一 个 简单 的 run_wsgi_appO 
服务 器 函数 它 ， 它 用 来 执行 WSGI 应 用 程序 。 
a) 这 个 run_bare_wsgi_appO 函 数目 前 不 支持 可 选 的 第 三 个 参数 exc_info。 学 习 
PEP 333 和 3333， 添 加 对 exc. info 的 支持 。 
b) 将 这 个 函数 移植 到 Python 3 中 。 

10-21 案例 研究 。 用 下 列 Python Web 框架 实现 web MJH: Werkzeug、WebOb、Django、 
Google App Engine， 并 与 用 WSGI 方式 实现 的 Web 应 用 进行 对 比 。 

10-22 标准。PEP 3333 针对 Python 3， 包 含 了 对 PEP 333 的 说 明和 加 强 。PEP 444 是 另 
外 一 个 提议 。 描 述 PEP 444 的 内 容 ， 以 及 与 已 有 PEP 的 关系 。 
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第 11 章 Web 框架 : Django 


Python 是 唯一 一 种 Web 框架 比 语言 关键 字 多 的 语言 。 
Harald Armin Massa, 2005 年 12 月 





本 章 内 容 : 

。 简介 ; 

e Web HEE; 

e Django 简介 ; 
。 项 目 和 应 用 ; 
e “Hello World” 应 用 (一 个 博客 ); 
。 创建 模型 来 添加 数据 库 服 务 ; 

e Python 应 用 shell; 

e Django 管理 应 用 ; 
。 创建 博客 的 用 户 界 面 ; 
。 改进 输出 ; 
。 处 理 用 户 输入 ; 

。 表单 和 模型 表单 ， 
。 视图 进 阶 ; 

e * 改 善 外 观 ; 

。 * 单 元 测试 ; 

e 中 级 Django MH: TweetApprover; 
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11.1 简介 














本 章 不 再 介绍 Python 标准 库 ， 而 介绍 一 个 著名 的 Web 框架 : Django。 首 先 简 要 介 
什么 是 Web 框架 ， 接 着 介绍 使 用 Django 开发 应 用 。 从 基础 开始 介绍 Django， 并 开发 
一 个 “Hello World” 应 用 。 接 着 逐步 深入 ， 介 绍 开发 实际 应 用 时 所 要 了 解 的 内 容 。 这 个 
路 线 图 也 组 成 了 本 章 的 架构 : 首先 夯实 基础 ， 然 后 介绍 中 级 应 用 ， 这 个 应 用 会 涉及 
Twitter, 电子 邮件 和 OAuthCOAuth 是 一 个 开放 的 授权 协议 ,用 于 通过 应 用 编程 接口 [APH] 
访问 数据 )。 

本 章 旨 在 介绍 一 款 工具 ，Python 开发 者 每 天 都 会 用 这 球 工 具 解 决 实际 问题 。 通 过 本 章 ， 
读者 会 学 到 一 些 技能 和 足够 的 知识 , 来 通过 Django 构建 更 复杂 的 工具 。 读者 可 以 带 着 
能 去 学 习 任 何其 他 Python Web 框架 。 首 先 ， 了 人 解 什么 是 Web 框架 。 
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11.2 Web 框架 























这 里 希望 读者 通过 第 10 章 的 学 习 ， 对 Web 开发 有 了 足够 的 了 解 。Web 开发 除了 像 上 一 
章 那 样 全 部 从 头 写 起 ， 还 可 以 在 其 他 人 已 有 的 基础 上 进行 开发 ， 简 化 开发 流程 。 这 些 Web FF 
发 环境 统称 为 Web 框架 ， 其 目标 是 帮助 开发 者 简化 工作 ， 如 提供 一 些 功 能 来 完成 一 些 通用 任 
务 ， 或 提供 一 些 资源 来 用 于 降低 创建 、 更 新 、 执 行 或 扩展 应 用 的 工作 量 。 

前 面 还 提 到 ， 由 于 CGI 在 可 扩展 性 方面 有 缺陷 ， 因 此 不 建议 使 用 它 。 所 以 Python 社区 
的 人 们 寻求 一 种 更 强大 的 Web 服务 器 解决 方案 ， 如 Apache, ligHTTPD (发 音 为 “lighty”)， 
或 nginx。 有 些 服务 器 ， 如 Pylons 和 CherryPy， 拥 有 自己 的 框架 生态 系统 。 但 服务 方面 的 内 
容 只 是 创建 Web 应 用 的 一 个 方面 。 还 需要 关注 一 些 辅助 工具 ， 如 JavaScript 框架 、 对 象 关系 
映射 器 ORM) 或 底层 数据 库 适 配器 。 还 有 与 Web 不 相关 但 其 他 类 型 的 开发 需要 的 工具 
如 单元 测试 和 持续 集成 框架 。Python Web 框架 既 可 以 是 单个 或 多 个 子 组件 ， 也 可 以 是 一 个 完 
整 的 全 栈 系 统 。 

术语 “全 栈 ” 表 示 可 以 开发 Web 应 用 所 有 阶段 和 层次 的 代码 。 框 架 可 以 提供 所 有 相关 的 
服务 , 如 Web 服务 器 、 数 据 库 ORM、 模 板 和 所 有 需要 的 中 间 件 hook. 有些 还 提供 了 JavaScript 
FE. Django 就 是 这 当中 一 个 广为人知 的 Web 框架 。 许 多 人 认为 Django 对 于 Python， 就 相当 
T Ruby on Rails 对 Ruby 一 样 。 Django 包含 了 前 面 提 到 的 所 有 服务 , 可 作为 全 能 解决 方案 ( 除 
了 没有 内 置 的 JavaScript 库 ， 这 样 可 以 自由 选择 相应 的 库 )。 在 第 12 章 将 看 到 Google App 
Engine 也 提供 了 这 些 组 件 ， 但 更 适合 于 由 Google 托管 并 且 侧 重 于 可 扩展 性 和 快速 请 求 /响应 
的 Web 和 非 Web 应 用 。 

Django 是 由 一 个 开发 团队 作为 单个 突出 创建 的 ， 但 并 不 是 所 有 框架 都 遵循 这 种 哲学 。 以 
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TurboGears 为 例 ， 这 是 一 个 非常 优秀 的 全 栈 系统 ， 由 分 散在 全 世界 的 开发 者 开发 ， 其 作为 胶 
水 代码 ， 将 栈 中 其 他 独立 的 组 件 组 合 起 来 ， 如 ToscaWidgets〈 高 级 Web 部 件 ， 它 可 利用 多 种 
JavaScript 框架 ， 如 Ex1tJs, jQuery  . SQLAlchemy (ORM), Pylons (Web 服务 器 )， 还 有 
Genshi《〈 模 板 化 )。 遵 循 这 种 架构 样式 的 框架 能 提供 很 好 的 灵活 性 ， 用 户 可 以 选择 不 同 的 模板 
AS JS 库 、 生 成 原始 SQL 语句 的 工具 ， 以 及 不 同 的 Web 服务 器 。 只 须 牺 牲 一 点 一 致 性 和 
放弃 单一 工具 的 追求 。 但 对 框架 的 使 用 也 许 与 之 前 的 方式 没什么 区 别 。 

Pyramid 是 另外 一 个 非常 著名 的 Web 框架 ， 这 是 repoze.bfg《〈 或 简称 BFG) 和 Pylons 的 
继承 者 。Pyramid 的 方式 更 加 简单 ， 它 只 提供 一 些 基 础 功能 ， 如 URL 分派、 模板 化 、 安 全 和 
一 些 资源 。 如 果 需 要 其 他 功能 ， 必 须 手 动 添加 。 这 种 极 简 的 方式 带 来 的 好 处 就 是 Pyramid 拥 
完整 的 测试 和 文档 , 以 及 从 Pylons 和 BFG 社区 继承 的 用 户 , 让 Pyramid 成 为 今日 Python Web 
框架 中 有 力 的 竞争 者 。 

如 果 读 者 刚 接触 到 Python， 可 能 会 了 解 Rails 或 PHP， 这 两 者 原先 只 想 将 语言 嵌入 到 
HTML 中 ， 后 来 扩展 成 一 个 庞大 框架 。Python 的 好 处 就 是 不 必 局 限于 “一 种 语言 ， 一 种 框架 ” 
的 形式 。 从 Python 中 可 以 选择 许多 框架 ， 就 如 同 本 章 起 始 处 的 引用 所 说 的 那样 。Web 服务 器 
网 关 接 口 (WSGI) 标准 的 建立 加 速 了 Web 框架 的 发 展 。Python WSGI 由 PEP 333 定义 ， 参 
JL: http://python.org/dev/peps/pep-0333 。 

如 果 读 者 还 不 了 解 WSGI, 这 里 有 必要 简要 说 明 一 下 。WSGI 不 是 实际 的 代码 或 API, 而 
定义 了 一 系列 接口 ， 让 Web 框架 的 开发 者 无 须 为 框架 创建 自 定义 Web 服务 器 ， 也 证 应 用 程 
序 开发 者 可 以 自行 选择 Web 服务 器 。 有 了 WSGI， 应 用 开发 者 就 可 以 方便 地 切换 (或 开发 新 
的 ) WSGI 兼容 的 服务 器 ， 而 无 须 担心 需要 改变 应 用 代码 。 关 于 WSGI 的 更 多 内 容 ， 可 阅读 
Eb—. 
有 一 点 不 知道 是 否 应 该 在 这 里 提 及 【特别 是 在 书 中 )， 当 热情 的 Python 开发 者 不 满足 已 
有 的 框架 时 ， 他 们 就 会 创建 一 个 新 框架 。Python 中 Web 框架 的 数目 比 关键 字 的 数目 还 多 。 其 
他 框架 还 包括 web2py. web.py. Tornado. Diesel 和 Zope。 可 以 在 Python 官网 的 维基 页 面 
http://wiki.python.org/moin/WebFrameworks 来 了 解 这 些 框架 。 

可 到 正文 ， 现 在 在 这 些 Web 开发 的 相关 知识 的 基础 上 来 学 习 Django. 


11.3 Django 简介 

























































































































































































































































































































































































































































































Django 自称 是 “能 够 很 好 地 应 对 应 用 上 线 期 限 的 Web 框架 ”。 其 最 初 在 21 世纪 初 发 布 ， 
由 Lawrence Journal-Wor ld 报 业 的 在 线 业 务 的 Web 开发 者 创建 。2005 年 正式 发 布 ， 引 入 了 以 
“新 闻 业 的 时 间 观 开发 应 用 ”的 方式 。 本 章 中 我 们 会 使 用 Django 开发 一 个 简单 的 博客 应 用 ， 
下 一 章 会 用 Google App Engine 开发 相同 的 应 用 ， 比 较 两 者 来 看 Django 的 开发 速度 (这 里 的 
博客 比较 简单 ,读者 需要 自行 完善 )。 尺 管 会 直接 给 出 这 个 例子 , 但 在 介绍 的 过 程 中 仍然 会 详 
细 解 释 示 例 。 如 果 读 者 想 深 入 了 解 ， 可 以 阅读 Python Web Development with Django 
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(Addison-Wesley, 2009)78 2 章 ， 该 书 由 我 和 我 尊敬 的 同事 Jeff Forcier (Fabric 主要 开发 者 ) 
和 Paul Bissex (dpaste 创建 者 ) 编写 。 

















核心 提示 : 对 Python 3 的 支持 
在 撰写 本 书 时 ，Django 2 已 经 并 仅 支持 Python 3， 因 此 本 章 的 所 有 示例 都 以 Python 2.x 编 
写 。 不 过 本 书 的 网 站 中 含有 所 有 的 Python 3 版 本 的 示例 。 


11.31 安装 
在 介绍 Django 开发 之 前 ， 首 先 安装 必需 的 组 件 ， 这 包括 依赖 组 件 和 Django 本 身 。 
预备 条 件 


在 安装 Django 之 前 ， 必 须 先 安装 Python。 由 于 读者 已 经 读 到 本 书 第 10 章 了 ， 因 此 假设 
已 经 安装 了 Python。 大 多 数 兼容 POSIX 的 系统 (Mac OS X. Linux, *BSDO 都 已 经 安装 了 
Python。 只 有 微软 Windows 需要 自行 下 载 并 安装 Python。 

Apache 是 Web 服务 器 中 的 王者 ， 因 此 大 多 数 部 署 都 会 使 用 这 款 服务 器 。Django 团队 建 
议 使 用 mod, wdgi 这 个 Apache 模块 ， 并 提供 了 安装 指南 : http://docs.djangoproject.com/en/dev/ 
topics/install/#install-apache-and-mod-wsgi， 同 时 也 提供 了 完整 的 开发 文档 ， 参 见 http://docs. 
djangoproject.com/en/dev/howto/deployment/modwsgi/。 还 有 一 份 更 好 的 文档 ,其 中 介绍 了 使 用 
一 个 Apache 实例 来 持 有 多 个 Django Web 站 点 (项 目 )， 参 见 http://forum.webfaction. 
com/viewtopic.php?id=3646。 如 果 想 了 解 mod_python， 只 能 在 老 的 Django 安装 包 或 在 
mod wsgi 成 为 标准 之 前 的 一 些 操作 系统 的 发 行 版 中 寻找 。 官 方 已 经 不 支持 mod_python 〈 实 
bs E. M Django 1.5 开始 ， 就 移 除 了 mod python). 

在 结束 对 Web 服 务 器 的 讨论 之 前 “， 还 需要 提醒 读者 ， 在 生产 环境 的 服务 器 中 并 不 是 

定 要 使 用 Apache， 还 可 以 有 其 他 选择 ， 其 中 有 些 内 存 占用 量 更 少 ， 速 度 更 快 。 也 许 其 中 一 个 
就 更 适合 你 的 应 用 。 可 以 在 http://code. djangoproject.com/wiki/ServerArrangements 中 查找 符合 
要 求 的 Web 服 务 器 。 

Django 需要 用 到 数据 库 。 当 前 的 标准 版 Django 只 可 运行 基于 SQL 的 关系 数据 库 管理 
系统 (RDBMS )。 用 户主 要 使 用 4 种 数据 库 , 分 别 是 PostgreSQL. MySQL, Oracle 和 SQLite. 
其 中 最 容易 设置 的 是 SQLite。 另 外 ，SQLite 是 这 4 个 当中 唯一 一 个 无 须 部 署 数据 库 服务 器 
的 ， 所 以 使 用 起 来 也 是 最 简单 的 。 当 然 ， 简 单 并 不 代表 无 能 ，SQLite 功能 和 另外 三 个 一 样 
强大 。 










































































































































































































































































































































































































































































O 除非 到 了 开发 阶段 ， 理 则 无 需 Web 服务 器 ， 因 此 可 以 在 后 面 安装 。Django 自 带 了 开发 服务 器 〈 刚 刚 已 经 
看 到 ) ， 可 以 用 于 创建 和 测试 应 用 。 
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为 什么 SQLite 很 容易 设置 ? SQLite 数据 库 适 配器 是 所 有 Python 版 本 中 自 带 的 (从 2.5 
开始 )。 注 意 ， 这 里 说 的 是 适配器 。 有 些 Python 发 行 版 自 带 了 SQLite 本 身 ， 有 些 会 使 用 系统 
上 安装 的 SQLite。 而 其 他 东西 则 需要 手动 下 载 和 安装 。 

Django 支持 众多 关系 数据 库 ，SQLite 只 是 其 中 一 种 ， 所 以 如 果 不 喜 欢 SQLite， 可 以 使 用 其 
他 数据 库 ， 特 别 是 如 果 公司 已 经 使 用 了 某 一 款 基 于 服务 器 的 数据 库 。 关 于 Django 和 数据 库 安 
的 更 多 内 容 ， 可 以 参考 http://docs.djangoproject.com/en/dev/topics/install/#data- base-installation o 

最 近 还 有 快速 发 展 的 非 关 系数 据 库 (NoSQL)。 大 概 这 是 因为 这 种 类 型 的 系统 提供 了 额 
外 的 可 扩展 性 ， 能 面 对 不 断 增 长 的 数据 量 。 如 果 处 理 像 Facebook、Twitter 或 类 似 服 务 那 样 的 
海量 数据 ， 关 系数 据 库 需要 手动 分 区 〈 切 分 )。 如 果 需 要 使 用 NoSQL 数据 库 ， 如 MongoDB 
或 Google App Engine 的 原生 Datastore， 可 以 尝试 Django-nonrel， 这 样 用 户 就 可 以 选择 使 用 
关系 或 非 关 系数 据 库 。( 需 要 说 明 一 下 ，Goolge App Engine 也 有 一 个 关系 数据 库 〈 兼 容 
MySQL), E} Google Cloud SQL). 

可 以 从 http://www.allbuttonspressed.com/projects/ django-nonrel FX Django-nonrel, UJ 
其 适配器 ， 参 见 https:// github.com/FlaPer87/django-mongodb-engine (Django fll MongoDB), 
或 者 http://www.allbuttonspressed.com/projects/djangoappengine (Django 和 Google App Engine 
的 Datastore)。 在 本 书 编写 时 , 由 于 Django-nonrel 是 Django 的 分 支 , 因此 只 能 安装 其 中 一 个 。 
主要 原因 是 因为 需要 在 开发 环境 和 生产 环境 中 使 用 相同 的 版 本 。 如 同 在 http://www. 
allbuttonspressed.com/projects/django-nonrel 上 说 的 那样 ,“(Dijango-nonrel) 只 对 Django 进行 
了 一 丁点 修改 〈 可 能 少 于 100 47)”. Django-nonrel 可 作为 压缩 文件 下 载 ， 所 以 直接 解压 它 ， 
在 对 应 的 目录 中 执行 下 面 的 命令 。 


$ sudo python setup.py install 


WR FE Django 压缩 包 ， 其 安装 方法 完全 相同 (如 下 所 示 )， 所 以 完全 可 以 跳 过 下 一 节 ， 
直接 开始 学 习 教 程 。 
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安装 Django 


有 多 种 方法 可 以 安装 Django， 下 面 对 这 些 安装 方法 按 难 易 程 度 排 序 ， 越 靠 前 的 越 
简单 。 
e Python 包 管 理 器 
。 ”操作 系统 包 管 理 器 
。 ”官方 发 布 的 压缩 包 
。 源码 库 
最 简单 的 下 载 和 安装 方式 是 使 用 Python 包 管 理工 具 ， 如 Setuptools 中 的 easy. install 
Chttp://packages.python.org/distribute/easy_install.html), EX, pip Chttp:// pip.openplans.org ), 所 
有 平台 上 都 可 使 用 这 两 个 工具 。 对 于 Windows 用 户 , 使 
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] Setuptools 时 需要 将 easy, install.exe 











文件 放 在 Python 安装 目录 下 的 Script 


令 就 能 安装 Django. 
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s 文件 夹 中 。 此 时 只 须 在 DOS 命令 行 窗口 中 使 





C:\WINDOWS\system32>easy_install django 


Searching for django 


Reading http://pypi.python.org/simple/django/ 


Reading http://www.djangoproject.com/ 


Best match: Django 1.2.7 


Downloading http://media.djangoproject.com/releases/1.2/Django- 


luo2t4  tartsqz 


Processing Django-1.2.7.tar.gz 


Adding django 1.2.7 to easy-install.pth file 


Installing django-admin.py script to c:\python27\Scripts 


Installed c:\python27\lib\site-packages\django-1.2.7-py2.7.egg 


Processing dependencies for 


django 


Finished processing dependencies for django 


为 了 无 须 输入 easy_install.exe 的 全 路 径 , 建议 将 CNPython2x\Scipts 添 加 到 PATH 环境 变量 




















中 ， 其 中 2.x 根 据 Python 的 版 本 来 决定 。 如 果 使 



































周知 的 /usr/bin 或 /usr/local/bin 中 ， 所 以 无 须 再 将 其 添加 到 PATH 中 ， 但 可 














来 将 软件 安装 到 一 些 典型 的 系统 目录 








中 ， 如 /usr/local。 命 令 如 下 所 示 。 





$ sudo easy_install django 


pip 的 命令 (不 使 用 virtuabanv) 




















$ pip install django #sudo 


只 有 在 安装 到 需要 超级 用 户 权限 
需要 。 这 里 还 建议 使 用 “容器 ”环境 


















































如 下 所 示 。 




















的 路 径 中 时 才 会 用 到 sudo; 如 果 安 装 到 
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j 一 条 命 











的 是 POSIX 系 统 ，easy_install 会 安装 到 众 所 











能 需要 使 用 sudo 命 令 
JP Ho rp DIA 





























， 如 virtualenv。 使 用 virtualenv 可 以 同时 安装 多 个 版 本 








的 Python、Django、 数 据 库 等 。 每 个 环境 在 独立 的 容器 ， 





























运行 ， 可 以 自由 创建 、 管 理 


销毁 。 关 于 virtualenv 的 更 多 内 容 可 以 参见 http://pypi.python.org/pypi/virtualenv。 





另 一 种 安装 Django 的 方式 是 使 月 

















一 般 仅 限 于 POSIX 类 的 操作 系统 ， 如 Linux 和 Mac OS X。 操 作 命令 如 下 所 示 。 


(Linux) $ sudo COMMAND install django 
(Mac OS X) $ sudo port install django 




















? Windows 系统 用 户 可 以 修改 PATH 环境 变量 。 首 先 右 击 “ 我 的 电脑 ”， 接 着 选择 
































话 框 中 ， 选 择 “ 高 级 ”标签 ， 最 后 单 击 “环境 变量 ”按钮 。 




















L» 











. f 








、 执 行 、 





操作 系统 自 带 的 包 管 理 器 《前 提 是 系统 有 包 管 理 器 )。 


出 的 对 
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对 于 Linux H, COMMAND 是 对 应 发 行 版 的 包 管 理 器 ， 如 apt-get. yum. aptitude 
等 。 可 以 从 http://docs.djangoproject.com/en/dev/ misc/distributions 中 找到 不 同 发 行 版 的 安 
装 指导 。 

除了 上 面 提 到 的 方法 之 外 , 还 可 以 从 Django 网 站 直接 下 载 并 安装 原始 发 布 的 压缩 包 。 下 
载 并 解压 后 ， 就 可 以 使 用 普通 的 命令 进行 安装 。 


$ sudo python setup.py install 




























































































在 http://docs.djangoproject.com/en/dev/topics/install/#installing-an-official-release 中 可 以 找 
到 更 详细 的 安装 指南 。 
专业 开发 者 可 能 更 喜欢 从 Subversion 源码 树 中 自行 获取 最 新 的 源码 。 关 于 这 种 安装 过 程 ， 
可 以 参考 http://docs.djangoproject.com/en/dev/topics/install/#installing-the-development-version。 
最 后 ，http://docs.djangoproject.com/en/dev/topics/install/#install-the-django-code 包含 了 所 
有 的 安装 指南 。 
下 一 步 是 设置 服务 器 ， 确 保 所 有 组 件 安装 完毕 并 能 正常 工作 。 但 在 此 之 前 ， 先 介绍 一 些 
基本 的 Django 概念 、 项 目 (project〉 和 应 用 Capp). 


114 ”项 目 和 应 用 


Django 中 的 项 目 和 应 用 是 什么 ?简单 来 说 ， 可 以 认为 项 目 是 一 系列 文件 ， 用 来 创建 并 运 
行 一 个 完整 的 Web 站 点 。 在 项 目 文件 夹 下 ， 有 一 个 或 多 个 子 文件 来， 每 个 子 文件 夹 有 特定 的 
功能 ， 称 为 应 用 。 应 用 并 不 一 定 要 位 于 项 目 文件 夹 中 。 应 用 可 以 专注 于 项 目 某 一 方面 的 功能 ， 
或 可 以 作为 通用 组 件 ， 用 于 不 同 的 项 目 。 应 用 是 一 个 具有 特定 功能 的 子 模 块 ， 这 些 子 模块 组 
合 起 来 就 能 完成 Web 站 点 的 功能 。 如 管理 用 户 / 读 者 反馈 、 更 新 实时 信息 、 处 理 数据 、 从 站 
点 聚合 数据 等 。 

从 Pinax 平台 上 能 找到 比较 著名 的 可 重用 的 Django 应 用 。 其 中 包括 (但 不 限于 ) 验证 模 
块 (OpenID 支持 、 密 码 管理 等 )、 消 息 处 理 〈E-mail 验证 、 通 知 、 用 户 间 联系 、 兴 趣 小 组 、 
主题 讨论 等 )， 以 及 其 他 功能 ， 如 项 目 管理 、 博 客 、 标 签 、 导 入 联系 人 等 。 关 于 Pinax 的 更 多 
内 容 可 以 访问 其 网 站 : http://pinaxproject.com。 

项 目 和 应 用 的 概念 简化 了 可 插 拔 的 使 用 方式 ， 同 时 也 强烈 鼓励 了 敏捷 设计 和 代码 台 
现在 知道 了 什么 是 项 目 和 应 用 ， 下 面 开 始 创建 一 个 项 目 。 


11.4.1 在 Django 中 创建 项 目 


Django 带 有 一 个 名 为 django-admin.py 的 工具 , 它 可 以 简化 任务 ， 如 创建 前 面 提 到 的 
项 目 目录 。 在 POSIX 平台 上 ， 它 一 般 会 安装 到 /usr/local/bin、/usr/bin 这 样 的 目录 中 。 如 
果 使 用 的 是 Windows 系统 ， 它 会 安装 到 Scripts 文件 夹 下 ， 该 文件 夹 位 于 Python 安装 目 
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录 下 ， 如 Ci\Python27\Scripts 。 无 论 是 POSIX 还 是 Windows 系统 ， 都 应 该 确保 


django-admin.py 位 于 PATH 环境 变量 中 ， 这 档 


全 路 径 名 调用 解释 器 )。 
对 于 Windows 系统 ， 需 要 手动 将 C:\Python27 和 C:\Python27\Scripts (或 自己 设 定 的 其 








他 Python 安装 路 径 ) 添加 到 PATH 变量 中 。 首 先 打开 控制 面板 ， 单 击 “ 系 
属性 ”。 在 打开 的 窗 
JAY PATH 项 (上 方 的 列表 机 








的 电脑 ” 接着 选择 “ 
可 以 选择 编辑 单个 





























11-1 所 示 。 





ini 











zu 
































口中 选择 


466 


F 它 在 可 以 在 命令 行 中 执行 (否则 需要 使 用 








” 或 右 击 





“R 





级 ”标签 ， 





In] 

















在 《任意 一 个 平台 上 ) 设置 好 PATH 以 后 ， 应 该 可 以 执行 Python 并 获得 一 个 交互 式 解释 
8， 并 查看 Django 的 django-admin.py 命令 的 使 用 7 
命令 的 名 称 。 如 果 一 切 正常 ， 就 继续 下 面 的 内 容 。 











单 击 “ 环 境 变 量 ” 按 钮 。 
EO, SPI HIP BS PATH (下 方 的 列表 
框 )， 接 着 在 Variable Value 文本 框 中 的 末尾 添加 “;C:\Python27;C:\Python27\Scripts”， 如 








图 





方法 。 打 开 UNIX shell 或 DOS 命令 行 ， 执 








下 一 步 是 到 转 到 需要 放置 代码 的 文件 夹 或 
































下 面 的 命令 (这 里 使 用 


$ django-admin.py startproject 


Value 
C: Program Files\Microsoft Visual Studo... 
C: Program Files Microsoft Visual Studo... 
C:\Program Files UDM Computer Solutio... 
C:\Documents and Settings Susanne O... 
C: Documents and Settings Susanne O... 


比较 常见 的 项 目 

















mysite 


^ 


v 


(e ee) Cone 


System variables 


Variable 


Value 


^ 





CLASSPATH C: Program Files \Java \jre6 ib extYOT... . 

ComSpec C:\WINDOWS \system32\cmd.exe 

FP. NO. HOST. C... NO 

INCL C:\Program Files\Microsoft Visual Studio... 

LiB C: Program Files Microsoft Visual Studo... |v 
New m Edit Delete " 
图 11-1 














注意 ， 如 果 使 用 的 是 Windows PC， 首 先 必 须 打 开 DOS 命令 行 窗口 
行 提示 符 类 似 C:\WINDOWS\system32， 而 不 是 POSIX 系统 ! 

















gos 


I g= AS 











IES (9), MEX 
该 类 似 下 面 这 样 。 














这 








HB ^X 

















目录 中 。 要 在 当前 目录 

















创建 项 目 ， 可 以 使 用 


























名 ， 如 mysite， 读 者 也 可 以 使 用 











其 他 名 称 )。 











将 Python 添加 到 Windows PATH 变量 中 





























创建 在 该 目 











| | Edit User Variable ax] 
Variable name: PATH 
Variable value: k: Python27;C: P ython27| Scripts 
Lo JC e | 





. Æ DOS F, MS 


的 美元 符号 ($) 或 老式 机 器 中 


录 下 创建 了 哪些 内 容 。 在 POSIX 系统 上 它 应 
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$ cd mysite 


$ ls -1 

total 32 

-rw-r--r-- 1 wesley admin 0 Dec TO LYPSI3.- indt —.py 
-rw-r--r-- 1 wesley admin 546 Dec 7 17:13 manage.py 
-rw-r--r-- 1 wesley admin 4778 Dec 7 17:13 settings.py 
-rw-r--r-- 1 wesley admin 482 Dec 7 17:13 urls.py 


如 果 在 Windows 上 开发 ， 打 开 文 件 浏览 器 ， 找 到 这 个 文件 夹 ， 如 图 11-2 所 示 ， 已 经 预 
先 创建 了 名 为 C:\py\django 的 文件 夹 ， 用 于 放置 项 目 。 
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Address jo C:'py'django'mysite 15 Go 


1/5/2011 6:12 PM 
1/5/2011 6:12 PM 
4KB Python Fie 1/5/2011 6:12 PM 
1KB Python Fie 1/5/2011 6:12 PM 

















图 11-2. Windows 系统 上 的 mysite 文件 夹 














在 Django 中 , 基本 的 项 目 含 有 4 个 文件 ,分 别 是 _init_.py、manage.py、 setting.py、 urls.py 
(后 面 会 添加 到 应 用 中 )。 表 11-1 解释 了 这 些 文件 的 用 途 。 














表 11-1 Django 项 目 文件 






































x 件 名 描述 /用 途 
init__.py 告诉 Python 这 是 一 个 软件 包 
urls.py 全 局 URL 配置 (“URLconf”) 
settings.py 项 目 相关 的 配置 
manage.py 应 用 的 命令 行 接 
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读者 会 注意 到 ，startproject 命令 创建 的 每 个 文件 都 是 纯 Python 源码 文件 ， 没 有 .ini 文件 、 
XML 数据 ， 或 其 他 配置 语法 。Django 尽力 坚持 “纯粹 的 Python” 这 一 信和 条。 这样 既 可 以 在 
不 向 框架 添加 复杂 东西 的 情况 下 拥有 灵活 性 ， 同 时 也 可 以 根据 不 同 的 情况 从 其 他 文件 导入 额 
外 的 配置 ， 或 动态 计算 数值 ， 而 不 是 硬 编码 。Django 中 不 适用 其 他 内 容 ， 只 有 纯 Python. & 
者 也 可 能 注意 到 了 django-admin.py 也 是 Python 脚本 。 其 作为 用 户 和 项 目 之 间 的 命令 行 接口 。 
而 manage.py 同样 可 以 用 这 种 方式 管理 应 用 (这 两 条 命令 都 有 Help 选项 ， 可 以 从 中 了 解 到 关 
于 使 用 方面 更 多 的 信息 )。 



























































































































































11.4.2 
到 目前 为 止 ， 

































































/EN 9 


为 什么 


1. 18 














开发 服务 器 











2. Soi Python 源码 文件 并 重新 载 入 模块 时 ， 开发 服务 器 会 自动 检测 。 





运行 开发 服务 


还 没有 创建 一 个 应 月 
个 最 方便 的 是 Django 内 置 的 Web 月 
这 里 强烈 建议 不 要 用 
会 存在 这 个 开发 服务 器 














这 个 服务 器 部 署 公开 页 面 ， 因 为 其 仅 用 于 开发 用 
? 主要 有 以 下 几 点 原因 。 

















。 尽 管 如 此 ， 己 经 可 以 使 用 一 些 Django 功能 
及 务 器 。 该 服务 器 运行 在 本 地 ， 专 门 用 于 开发 阶段 。 注 
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了 a 其 












































途 。 

















器 ， 可 以 直接 运行 与 测试 项 目 和 应 用 

































































时 间 , 也 能 方便 
3. 开发 服务 器 知 





地 使 



































须 立 即 了 解 管理 





django-admin.py 





(PCs) 


如 果 使 



































调 








通过 项 目 中 的 manage.py 工具 ， 可 以 使 用 下 面 这 


(POSIX) $ python 


] python, 41$ /manage.py runserver. TE DOS fi 























脚本 弄 混 了 )。 





， 无 需 完整 的 生产 环境 。 


这 样 既 能 节省 








e 


] 系统， 无 须 每 次 编辑 代码 后 手动 重启 。 
道 如 何 为 Django 管理 应 用 程序 寻找 和 显示 前 
EE 方面 的 内 容 (后 面 会 介绍 相关 内 容 ， 











态 媒 体 文件 ， 所 以 无 
现在 只 是 不 要 把 它 与 























./manage.py runserver 




















正确 安装 到 Windows 注册 表 ! 





即 可 。 











局 动 服务 器 后 ， 





























程序 )。 


Validating models... 


0 errors found. 





命令 行 窗口 


] POSIX 系统 ， 并 使 用 $ chmod 755 manage.py 来 








个 简单 的 命令 运行 开发 服务 器 。 


C:\py\django\mysite> python manage.py runserver 





授予 脚本 执行 许可 ， 就 无 须 显 式 











也 同样 可 以 做 到 ， 只 





imi Python 








应 该 能 看 到 和 下 面 例子 相似 的 输出 (Windows 使 用 不 同 的 键 组 合 来 退出 


Django version 1.2, using settings 'mysite.settings' 


Development server is running at http://127.0.0.1:8000/ 


Quit the server 


在 浏览 器 中 打 7 





如 果 需 要 使 用 不 同 的 端口 运行 服务 器 , 可 以 在 命令 
运行 它 ， 可 以 使 用 这 条 命令 : $ python ./manage.py runserver 8080。 读 者 可 以 在 下 
WITH: http://docs.djangoproject.com/en/dev/ref/django-admin/#django-a 








中 找到 所 有 的 runserver 


dmin-runserver. 


with CONTROL-C. 





11-3 所 示 。 


开 链 接 (http://127.0.0.1:8000/ 或 http:Wlocalhost:8000/)， 就 可 以 看 到 Django 
的 “It worked!” WM, wB 























如 果 看 到 了 图 11-3 | 











行 中 的 会 话 ， 可 以 看 到 开发 服务 器 









































的 “It worked!” 页 面 ， 那 么 就 表示 
已 经 记录 了 GET 请 求 。 








行 中 指定 。 例 如 , 如 果 需 要 在 端口 8080 








这 个 链接 

















一 切 正常 。 此 时 ， 如 果 查 看 命令 
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[11/Dec/2010 


000) ^j Welcome to Django 3 
o jang = 


e>cfi © localhost:8000 EIC rm a 


14:15:51] "GET / HTTP/1.1" 200 2051 

















It worked! 


Congratulations on your first Django-powered page. 


Of course, you haven't actually done any work yet. Here's what to do next: 


* If you plan to use a database, edit the DATABASES setting in 
mysite/settings.py. 

* Start your first app by running python mysite/manage.py startapp 
[appname ]. 


You're seeing this message because you have DEBUG = True in your Django 
settings file and you haven't configured any URLs. Get to work! 





























图 11-3 Django 初始 的 “It worked!” W Hi 





日 志 的 每 一 行 含有 4 ARD, MEIA, KERER R HTTP 响应 编码 ， 以 及 





字 节 数 (读者 可 能 有 不 同 的 字 节 数 。“It worked!” 页 面 很 友好 地 告诉 用 户 开发 服务 器 正在 工 


















































作 ， 现 在 可 以 创建 应 用 了 。 如 果 服 务 器 没有 正常 工作 ， 检 查 前 面 的 步骤 。 此 时 甚至 可 以 直接 
删除 整个 项 目 ， 从 头 开始 ， 而 不 是 在 这 里 就 开始 调试 。 


当 服 务 器 成 功 运行 时 ， 就 可 以 设置 第 一 个 Django 应 用 























o 


11.5 “Hello World” 应 用 (一 个 博客 ) 



































既然 拥有 了 一 个 项 目 , 就 可 以 在 其 中 创建 应 用 。 为 了 创建 一 个 博客 应 用 , 继续 使 用 manage.py: 
$ ./manage.py startapp blog 


如 之 前 的 项 目 一 样 ， 这 里 可 以 自行 起 名 字 ， 并 不 一 定 要 使 用 blog 这 个 名 称 。 这 一 步 与 启 
























































动 一 个 项 目 同样 简单 。 现 在 在 项 目 目录 中 有 了 一 个 blog 目录 。 下 面 介 绍 了 其 中 的 内 容 ， 首 2 
用 POSIX 格式 列 出 其 














$ ls -1 blog 


total 24 

EWer-egee-x 
Se a 
-—Epwer--r--. 1 
he a 























eH 



































中 的 内 容 ， 接 着 使 用 Windows 的 截图 显示 COLA 11-4). 





wesley admin 0 Dec 8 18:08 init .py 
wesley admin 175 Dec 10 18:30 models.py 
wesley admin 514 Dec 8 18:08 tests.py 
wesley admin 26 Dec 8 18:08 views.py 
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File Edit View Favorites Tools Help | 
G- O- D| sah | Folders | | -> 


Address |C) C: \py\django mysite blog 





œ init .py OKB Python File 1/5/2011 6:17 PM 
? models.py 1KB Python File 1/5/2011 6:17 PM 
© tests.py 1KB PythonFile 1/5/2011 6:17 PM 
? views.py 1KB Python File 1/5/20116:17PM 




















图 11-4 Windows 系统 中 的 blog 文件 夹 





















































































































































表 11-2 介绍 了 其 中 的 应 用 文件 。 
表 11-2 Django 应 用 文件 
x 件 名 fae 述 / 目 的 

. init .py 告诉 Python 这 是 一 个 包 

urls.py 应 用 的 URL 配置 文件 (URLconf”)， 这 个 文件 并 不 像 项 目的 URLconf 那样 自动 创建 (所 
以 上 面 的 截图 中 没有 ) 

models.py 数据 模型 

views.py 视图 函数 〈 即 MVC 中 的 控制 器 ) 
tests.py 单元 测试 


















































与 项 目 类 似 ， 应 用 也 是 一 个 Python 包 。 但 在 这 里 ，models.py 和 views.py 文件 中 目 
前 还 没有 真正 的 代码 ， 需 要 开发 者 在 今后 添加 代码 。 单 元 测试 文件 tests.py 也 是 如 此 。 
同样 ,即使 可 以 使 用 项 目的 URLconf 来 分 派 访问 ,也 不 会 自动 创建 本 地 应 用 的 URLconf。 
这 需要 手动 创建 它 ， 接 着 使 用 项 目 URLconf 里 的 include() 指 令 将 请 求 分 配给 应 用 的 
URLconf. 

为 了 让 Django 知道 这 个 新 的 应 用 是 项 目的 一 部 分 ， 需 要 编辑 settings.py 〈 可 以 将 其 理解 
为 配置 文件 )。 使 用 编辑 器 打开 这 个 文件 ， 找 到 位 于 底部 的 INSTALLED_APPS 这 个 元 组 .将 
应 用 名 称 (blog) 添加 到 元 组 的 末尾 ， 如 下 所 示 。 


INSTALLED APPS = ( 
















































































































































































'blog', 
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虽然 结尾 的 逗号 不 是 必需 的 , 但 如 果 今 后 向 该 元 组 中 添加 其 他 项 ， 就 无 须 添加 逗号 。Django 
使 用 INSTALLED. APPS 来 配置 系统 的 不 同 部 分 ， 包 括 自动 管理 应 用 程序 和 测试 框架 。 
11.6 创建 模型 来 添加 数据 库 服务 
现在 接触 到 了 基于 Django 的 博客 系统 的 核心 : models.py 文件 。 在 这 里 将 定义 博客 的 数 
据 结构 。 道 循 的 规则 是 “不 要 自我 重复 ”(Don't Repeat Yourself, DRY) 原则 ，Django 可 以 
从 为 应 用 提供 的 模型 信息 获取 很 多 好 处 。 首先 创 建 一 个 基本 模型 , 接着 来 看 Django 使 用 这 些 
AAAS) ENA A. 
数据 模型 表示 将 会 存储 在 数据 库 每 条 记录 中 的 数据 类 型 。 By 提供 了 许多 字段 ， 用 来 
将 数据 映射 到 应 用 中 。 在 这 个 应 用 中 ， 将 使 用 三 个 不 同 的 字段 类 型 “参见 下 面 的 示例 代码 )。 
使 用 编辑 器 打开 models.py， 在 文件 中 已 存在 的 import 
# models.py 
from django.db import models 
class BlogPost (models.Model): 
title = models.CharField (max length-150) 
body = models.TextField() 
timestamp = models.DateTimeField() 
这 是 一 个 完整 的 模型 ， 表 示 一 个 “博文 ”对 象 ， 其 中 含有 三 个 字段 〈 更 准确 地 说 ， 其 





含有 四 个 字段 ， 还 有 一 个 是 Dj 
型 中 唯一 的 )。 现 在 来 看 




















ango 

















自动 创建 


这 是 Django 强 














的 字段 ， 该 字段 可 以 














大 的 ORM 的 核心 





自动 递增 ， 
刚刚 创建 的 BlogPost 类 , 这 是 django.db.models.Model 的 子 类 。Model 


是 Django 中 用 于 数据 模型 的 标准 基 类 ， 。BlogPost ! 








且 每 个 模 








的 字 























段 就 像 普 
记录 。 
对 于 这 个 应 用 ， 





通 的 类 属性 那 相 























使 





— 








] CharField 作为 博 














可 
使 


— 




















SS 























和 XMLField 。 


若 想 了 解 可 用 





定义 ， 每 个 都 是 特定 字段 类 的 实例 ，4 每 个 实例 对 应 数据 库 中 的 








中 i=) 


o HX 








一 条 


文 的 tite， 并 限制 了 该 字段 的 最 大 长 度 。CharField 
于 较 短 的 单行 文本 。 对 于 较 长 的 文本 , 如 博文 的 正文 , 使 用 TextField 类 型 





后 , timestamp 











] DateTimeField。DateTimeField 使 用 Python 的 datetime.datetime 对 象 表示 。 
这 些 字段 类 同样 定义 在 django.db.models 中 ， 其 中 还 有 其 
字段 的 完整 列表 ， 


也 字段 类 型 ， 
官方 文档 ， 


如 

















可 以 阅读 


djangoproject.com/en/dev/ref/models/fields/#field-types 。 


11.6.1 设置 数据 库 





















































BooleanField 


参见 http://docs. 


如 果 还 没有 安装 并 运行 一 个 数据 库 服务 器 ， 则 强烈 建议 使 用 方便 易 用 的 SQLite. SQLite 
速度 快 、 可 用 范围 广 ，SQLite 将 数据 库 另存 为 文件 系统 中 的 单个 文件 。 访 问 控制 就 是 简单 的 
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文件 访问 权限 。 如 果 不 想 使 用 SQLite; 而 是 使 用 其 他 数据 库 服 务 器 , 如 MySQL, PostgreSQL. 









































Oracle， 那 么 可 以 使 用 数据 库 管理 工具 为 Django 项 目 创建 新 的 数据 库 。 
使 用 MySQL 














































































































settings.py 文件 。 关 于 数据 库 ， 有 6 个 相关 的 设置 《虽然 这 里 可 能 只 会 

















NAME, HOST. PORT. USER 和 PASSWORD。 从 名 称 就 能 很 明显 地 看 出 其 








到 两 


























有 了 空 的 数据 库 后 ， 剩 下 的 就 是 通知 Django 来 使 用 它 。 此 时 需要 再 次 用 到 项 目的 
个 ): ENGINE, 


中 的 用 途 。 这 里 















































对 MySQL 的 设置 会 类 似 下 面 这 样 。 


DATABASES = { 

'default': { 
'ENGINE': 'django.db.backends.mysql', 
'NAME': 'testdb', 
'USER': 'wesley', 
'PASSWORD': 's3Cr3T', 
HOSTE Ut 
PPORT A2 

} 


























意 , 如 果 使 用 的 是 较 老 版 本 的 Django, 则 不 会 将 所 有 设置 放 在 单个 字典 类 型 的 变 


只 须 在 相关 设置 选项 后 面 填 上 需要 让 Django 使 用 的 数据 库 服务 器 中 合适 的 值 即 可 。 例 如 ， 针 





la 

















存放 在 许多 单独 的 、 模 块 级 别 的 变量 中 。 




















= 
RE 
bp Wp ne 




















, 














里 没有 指定 PORT 的 值 ， 因 为 只 有 在 数据 库 服务 器 在 非 标准 端口 






























































上 运行 时 才 需 要 设 定 




















该 值 。 例 如 ，MySQL 服务 器 默认 情况 下 会 使 用 3306 端口 。 除 非 改 变 了 设置 ， 否 则 无 须 指定 


PORT. HOST 一 项 也 留 空 ， 表 示 数 据 库 服务 器 与 应 用 程序 运行 在 同一 台 计 算 机 上 。 在 继续 使 


























码 已 经 存在 。PostgreSQL 的 设置 与 MySQL 类似， 但 Oracle 有 所 不 同 。 











] Django 之 前 ， 要 确认 已 经 执行 CREATE DATABASE testdb 来 创建 了 数据 库 ， 且 




















] 户 和 密 


关于 设置 新 的 数据 库 、 用 户 和 配置 的 更 多 信息 ， 可 参考 http://docs.djangoproject.com/ 
en/dev/intro/tutorial01/#database-setup 和 http://docs.djangoproject.com/en/dev/ref/settings/#std: 
setting-DATABASES 中 的 Django 文档 以 及 Python Web Development with Django 一 书 的 附录 也 














《如 果 读 者 有 这 本 书 )。 
使 用 SQLite 


























SQLite 一 般 用 于 测试 。 它 甚至 可 以 用 于 特定 环境 下 的 部 署 ， 如 应 | 


























] 于 无 须 大 量 同时 写 入 


需求 的 场景 。SQLite 没有 主机 、 端 口 、 用 户 ， 或 密码 信息 。 因 为 SQLite 使 用 本 地 文件 来 存 














储 数据 ， 本 地 文件 系统 的 访问 权限 就 是 数据 库 的 访问 控制 。SQLite 不 仅 可 以 使 月 



































日 本 地 文件 ， 





还 可 以 使 用 纯 内 存 数据 库 。 因 此 针对 SQLite 数据 库 的 配置 ， 在 settings.py 中 的 DATABASES 
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配置 中 只 有 ENGINE 和 NAME 字段 。 





DATABASES = { 
'default': { 
'ENGINE': 'django.db.backends.sqlite3', 
'NAME': '/tmp/mysite.db', # use full pathname to avoid confusion 


} 


使 用 实际 的 Web 服务 器 (如 Apache) 来 使 用 SQLite 时 ， 需 要 确保 拥有 Web 服务 器 进程 
的 账户 同时 拥有 数据 库 文件 本 身 和 含有 数据 库 文件 的 目录 的 写 入 权限 。 当 使 用 这 里 的 开发 服务 
器 时 , 就 无 须 关 心 权 限 问 题 , 因为 运行 开发 服务 器 的 用 户 同时 拥有 项 目 文件 和 目录 的 访问 权限 。 

Windows 用 户 也 经 常 选择 SQLite， 因 为 其 中 自 带 Python (M 2.5 版 本 开始 )。 由 于 已 经 在 
C:\py\django 文件 夹 下 创建 了 项 目 和 应 用 ， 因 此 在 这 里 继续 创建 db 目录 ， 并 指定 将 要 创建 的 
数据 库 文 件 的 名 称 。 

DATABASES = { 
'default': { 


'ENGINE': 'django.db.backends.sqlite3', 
'NAME': r'C:\py\django\db\mysite.db', # full pathname 






















































































































































































} 
如 果 读 者 有 一 定 的 Python 开发 经 验 ,可 能 明白 在 路 径 名 称 前 面 的 “r” 表 示 这 是 一 个 Python 
原始 字符 串 。 即 Python 会 使 用 字符 串 中 的 每 个 原始 字符 ， 不 会 进行 转 义 。 如 “\n” 会 解释 成 
一 个 反 斜 杜 “\” 紧 接着 是 字母 “n”， 而 不 是 单个 换行 符 。 一 般 在 DOS 文件 的 路 径 名 ， 和 正 
则 表达 式 中 会 用 到 Python 原始 字符 串 ， 因 为 这 两 者 中 经 常会 含有 反 斜 杜 ， 反 斜 杠 在 Python 
中 是 特殊 的 转 义 字符 。 更 多 内 容 ， 参 见 Core Python Programming 或 Core Python Language 
Fundamentals 中 “序列 ”一 章 中 关于 字符 串 的 一 节 。 


11.6.2 ”创建 表 


现在 需要 通知 Django 使 用 上 面 给 出 的 链接 信息 来 连接 数据 库 ， 设 置 应 用 程序 需要 的 表 。 
需要 使 用 manage.py 和 其 中 的 synedb 命令 ， 如 下 所 示 。 
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$ ./manage.py syncdb 

Creating tables ... 

Creating table auth permission 
Creating table auth group permissions 
Creating table auth group 


Creating table auth user user permissions 








Creating table auth user groups 
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Creating table auth user 

Creating table auth message 
Creating table django content type 
Creating table django session 


Creating table django site 





Creating table blog blogpost 


pa 








当 执 行 这 个 suncdb 命令 后 ,Django 会 查找 INSTALLED. APPS 中 列 出 的 应 用 的 models.py 











文件 。 对 于 每 个 找到 的 模型 ， 它 会 创建 一 个 数据 库 表 《〈 大 部 分 情况 下 如 此 )。 如 果 使 用 的 是 



































SQLite， 会 注意 到 mysite.db 这 个 数据 文件 刚好 创建 在 设置 中 指定 的 文件 夹 里 。 



































默认 情况 下 ， 位 于 INSTALLED_APPS 中 的 其 他 项 都 含有 模型 ， 也 会 这 样 处 理 。 从 

















manage.py syncdb 命令 的 输出 可 以 确认 了 这 一 点 。 从 中 可 以 看 出 ，Django 会 为 每 个 应 












































创建 





一 个 或 多 个 表 。 下 面 列 出 来 的 并 不 是 syncdb 命令 的 所 有 输出 。 还 有 一 些 与 django.contrib.auth 






































应 用 相关 的 交互 式 查 询 〈 详 见 下 面 的 例子 )。 这 里 建议 创建 一 个 超级 用 户 ， 因 为 后 面 会 ) 














到 。 



































下 面 列 出 了 syncdb 命令 的 处 理 过 程 中 的 末尾 部 分 。 











You just installed Django's auth system, which means you don't have 
any superusers defined. 

Would you like to create one now? (yes/no): yes 

Username (Leave blank to use 'wesley'): 

E-mail address: ****Q****.com 

Password: 

Password (again): 

Superuser created successfully. 

Installing custom SQL ... 

Installing indexes ... 


No fixtures found. 











现在 ， 在 授权 系统 中 有 了 一 个 超级 用 户 。 这 会 简化 后 面 添加 Django 的 自动 管理 应 用 














的 流程 。 








最 后 ， 设 置 过 程 包含 了 与 fixtures 特性 相关 的 一 行 ， 这 个 特性 表示 数据 库 预 先 存在 的 系 
列 化 内 容 。 在 任何 新 建 的 应 用 中 ， 可 以 使 用 fixtures 来 预 加 载 这 种 数据 类 型 。 初 始 的 数据 库 




























































































设置 此 时 已 经 完成 。 当 下 次 在 该 项 目 中 运行 Syncdg 命令 时 〈 在 任何 时 候 想 要 在 该 项 

















添加 


一 个 应 用 或 模型 时 ), 将 会 看 到 只 有 少量 输出 , 原因 是 不 需要 第 二 次 设置 这 些 表 ， 也 不 会 提示 





























你 创建 一 个 超级 用 户 。 














此 时 ， 完 成 了 应 用 的 数据 模型 部 分 。 它 可 以 接受 用 户 的 输入 。 但 还 无 法 做 到 这 一 点 。 如 


























果 读 者 了 解 Web 应 用 设计 中 的 MVC 模式 ， 会 意识 到 已 经 完成 了 模型 ， 但 还 缺少 视 
TP HTML、 模 板 等 ) 和 控制 器 (应 用 逻辑 )。 



































图 ( 








Al [e] 
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BIWER: MVC 与 MIV 

Django 社区 使 用 另 一 种 形式 的 MVC 模式 。 在 Django 中 ， 它 称 为 模型 -模板 -视图 ， 
简称 MTV。 数 据 模 型 保持 不 变 ， 但 视图 在 Django 中 是 模板 ， 因 为 模板 用 来 定义 用 户 可 见 
的 内 容 。 最 后 ，Django 中 的 视图 表示 视图 函数 ， 它 们 组 成 控制 器 的 逻辑 。 这 与 MVC 完全 
相同 ， 但 仅仅 是 对 不 同 角色 进行 了 不 同 的 解释 。 关 于 这 方面 的 Django 哲理 ， 可 以 从 
http://docs.djangoproject.com/en/dev/faq/general/#django-appears-to-be-a-mvc-framework-but- 
you-call-the-controller-the-view-and-the-view-the-tem-  plate-how-come-you-don-t-use-the-standard 


-names 中 寻找 FAQ 答案 。 


11.7 Python 应 用 shell 
































Python 用 户 都 知道 交互 式 解释 器 的 强大 之 处 。 Django 的 创建 者 也 不 例外 ， 他 们 将 其 集成 
Xt Django 中 。 本 节 将 介绍 使 用 Python shell 来 执行 底层 的 数据 自省 和 处 理 ， 这 些 任务 在 
Web 应 用 开发 中 不 易 完 成 。 


11.7.1 在 Django 中 使 用 Python shell 


即使 没有 模板 (view) 或 视图 Ccontroller), 我 们 也 依然 可 以 通过 添加 一 些 BlogPost 项 来 
测试 数据 模型 。 如 果 应 用 由 RDBMS 支持 ， 如 大 多 数 Django 应 用 那样 ， 则 可 以 为 每 个 blog 
项 的 表 添 加 一 个 数据 记录 。 如果 使 用 的 是 NoSQL 数据 库 , W MongoDB 或 Google App Engine 
的 Datastore， 需 要 向 数据 库 中 添加 其 他 对 象 、 文 档 或 实体 。 

那么 如 何 做 到 这 一 点 呢 ? Django 提供 了 Python 应 用 shell， 通 过 这 个 工具 ， 可 以 实例 化 
模型 ， 并 与 应 用 交互 。 在 使 用 manage.py 中 的 shell 命令 时 ，Python 用 户 会 认 出 熟悉 的 交互 式 
解释 器 的 启动 和 提示 信息 。 

$ python2.5 ./manage.py shell 
Python 2.5.1 (r251:54863, Feb 9 2009, 18:49:36) 


[GCC 4.0.1 (Apple Inc. build 5465)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 





































































































































































































(InteractiveConsole) 
>>> 


Django shell 和 标准 的 Python 交互 式 解释 器 的 不 同 之 处 在 于 后 面 将 要 介绍 的 额外 功能 ， 
Django shell 更 专注 于 Django 项 目的 环境 。 可 以 与 视图 函数 和 数据 模型 交互 ， 因 为 这 个 shell 
会 自动 设置 环境 变量 ， 包 括 sys.path， 它 可 以 访问 Django 与 自己 项 目 中 的 模块 和 包 ， 否 则 需 
要 手动 配置 。 除 了 标准 shell 之 外 ， 还 有 其 他 的 交互 式 解释 器 可 供 选择 ， 在 Core python 
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Programming 或 Core Python Language Fundamentals 的 第 1 章 中 对 其 做 了 介绍 。 
Django 更 倾向 于 使 用 功能 更 丰富 的 shell， 如 IPython 和 bpython， 这 些 shell 在 普通 解释 
器 的 基础 上 提供 极其 强大 的 功能 。 运行 shell 命令 时 ，Django 首先 查找 含有 扩展 功能 的 shell, 
如 果 没 找到 则 会 返回 标准 解释 器 。 
在 前 面 的 例子 中 ， 使 用 Python 2.5 的 解释 器 。 因 此 ， 使 用 的 也 是 标准 解释 器 。 现 在 执行 
manage.py shell 时 ， 由 于 找到 了 IPython， 于 是 就 使 用 这 个 shell。 




















































































































































































































$ ./manage.py shell 
Python 2.7.1 (r271:86882M, Nov 30 2010, 09:39:13) 
[GCC 4.0.1 (Apple Inc. build 5494)] on darwin 


Type "copyright", "credits" or "license" for more information. 
IPython 0.10.1 -- An enhanced Interactive Python. 
? -» Introduction and overview of IPython's features. 


$quickref -> Quick reference. 


Help -» Python's own help system. 

object? -» Details about 'object'. ?object also works, ?? prints 
more. 

In [1]: 























读者 也 可 以 使 用 --plain 选项 来 强制 使 


$ ./manage.py shell --plain 
Python 2.7.1 (r271:86882M, Nov 30 2010, 09:39:13) 
[GCC 4.0.1 (Apple Inc. build 5494)] on darwin 


— 
ni 
HT 




















Type "help", "copyright", "credits" or "license" for more information. 
(InteractiveConsole) 
>>> 


需要 说 明 的 是 ， 能 否 使 用 有 扩展 功能 的 shell 与 Python 版 本 无 关 。 仅 仅 是 因为 作者 的 机 
器 上 安装 了 用 于 Python 2.7 版 本 的 IPython， 但 没有 安装 用 于 Python 2.5 的 。 

如 果 读 者 想 安 装 扩 展 功 能 的 shell， 需 要 用 到 前 面 介绍 安装 Django 时 用 到 的 easy_install 
或 pip。 下 面 是 在 Windows 中 安装 IPython 的 方式 。 










































































C: NWINDOWSNsystem32»Npython27NScriptsNVeasy install ipython 
Searching for ipython 

Reading http://pypi.python.org/simple/ipython/ 

Reading http://ipython.scipy.org 

Reading http://ipython.scipy.org/dist/0.10 

Reading http://ipython.scipy.org/dist/0.9.1 


Installing ipengine-script.py script to c:\python27\Scripts 
Installing ipengine.exe script to c:\python27\Scripts 
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Installed c:\python27\lib\site-packages\ipython-0.10.1-py2.7.egg 


Processing dependencies for ipython 


Finished processing dependencies for ipython 


11.7.2 ”测试 数据 模型 


既然 知道 了 如 何 启 动 Python shell， 就 启动 IPython 并 输入 一 些 Python 或 [Python 命令 来 
测试 应 用 及 其 数据 模型 。 








In [1]: 
In. [21% 
im. 3] < 
Out [3]: 
In [4]: 











from datetime import datetime 

from blog.models import BlogPost 
BlogPost.objects.all() # no objects saved yet! 

[] 

bp = BlogPost (title='test cmd-line entry', body-''' 


e... i yo, my lst blog post... 


....: it's even multilined!''', 


e... : timestamp=datetime.now() ) 











n [1 


: bp 

: <BlogPost: BlogPost object» 

: bp.save() 

: BlogPost.objects.count () 

api 

: exec | i3 4 repeat cmd #3; should have 1 object now 
: [<BlogPost: BlogPost object>] 

: bp = BlogPost.objects.all() [0] 


0]: print bp.title 
test cmd-line entry 


]: print bp.body 4 yes an extra Mn in front, see above 


yo, my 1st blog post... 


it's even multilined! 


In [12]: bp.timestamp.ctime() 
Out[12]: 'Sat Dec 11 16:38:37 2010' 


前 几 个 命令 导入 了 相应 的 对 象 。 第 3 步 查 询 数据 库 中 的 BlogPost 对 象 ， 此 时 它 为 空 。 所 
以 在 第 4 步 ， 通 过 实例 化 一 个 BlogPost 对 象 来 向 数据 库 中 添加 第 一 个 BlogPost 对 象 ， 向 其 中 














传 入 对 应 属性 日 











MME (title, body 和 timestamp )。 创 建 完 对 象 后 ， 需 要 通过 BlogPost. 


将 其 写 入 到 数据 库 中 (第 6 步 。 
完成 了 创建 和 写 入 后 ， 可 以 使 用 第 7 步 的 BlogPost.objects.count() 方 法 确认 数据 库 中 对 象 


的 个 数 从 0 变 成 了 1。 在 第 8 步 ， 使 用 了 [Python 的 命令 来 重复 第 3 步 的 命令 ， 获 得 数据 库 ， 
存储 的 所 有 BlogPost 对 象 的 列表 。 虽 然 可 以 重复 输入 BlogPost.objects.all(), {Hix 4 
扩展 shell 的 强大 之 处 。 最 后 一 步 是 在 第 9 步 获 取 含 有 所 有 BlogPost 对 象 的 列表 ， 



























































saveQ 7; 1 



































是 仅 演示 














的 第 一 个 

















元 素 〈 也 只 有 一 个 )， 获 得 其 中 刚刚 存 进 去 的 值 。 








前 面 仅仅 作为 示例 介绍 了 如 何 将 交互 式 解 释 器 与 应 月 
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结合 
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起 来 。shell HELK 
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E22. Django 40 
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E， 可 以 


参见 http://docs.djangoproject.com/en/dev/intro/tutorial01/#playing-with-the-api.i#£ Python shell 


是 








与 集成 开发 环境 ODE) 一 同 ] 

















E 常 棒 的 开发 者 工具 。 除 了 Python 自 带 的 标准 命令 行 工 具 之 外 ， 这 些 Django 功能 也 可 以 


的 交互 式 解释 器 ， 如 IPython 和 








bpython， 获 得 更 多 的 功能 。 





[ 作 ， 还 可 以 





Me 








过 第 三 方 开 发 











pus] 

















几乎 所 有 
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的 Web 


JPR KE 
[ 具 ， 对 于 每 个 开发 出 来 的 Web 应 月 
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1 台 吗 ? 看 起 来 3 






































开发 者 更 
昌都 是 








11.8 Django 管理 应 用 











自动 后 台 管 























应 





























Web 应 用 创建 简 生 
站 点 者 














有 完全 完成 ， 想 ; 











11.8.1 


尽管 Django 自 带 这 个 admin 应 月 























之 前 启 月 
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H blog 应 




















INSTALLED APPS = 


- db dE dB db o 


blog 
) 











' 
, 



































的 CRUD 接口 
了 需要 它 。 为 什么 呢 ? 


]—RE. 177 
中 已 经 添加 了 “blog” 但 可 





TAS AT 











如 此 。 但 开发 者 真 的 






































HH. 
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“4S, Django 管理 应 














因为 需要 看 

















设置 admin 





H, 但 





ob 
能 会 


看 到 “ 


( 


'django.contrib.admin', 


'django.contrib.admindocs', 


























月 认 应 
行 这 些 操作 就 有 点 困难 了 
可 以 在 完成 完整 的 UI 之 前 验证 处 型 


于 settings.py, 





























o admin 应 | 





数据 的 代码 。 











依然 需要 在 配置 文件 ， 


























blog” 上 面 的 四 行 。 


Uncomment the next line to enable the admin: 














明确 








用 可 以 用 于 这 一 点 。 





























创建 一 个 这 样 


愿意 使 用 基于 Web 的 创建 、 读 取 、 更 新 、 删 除 (CRUD) 
希望 为 每 个 应 





J, BURR admin, 1&2$7j Django 星 冠 上 的 明珠 。 对 于 那些 厌烦 了 为 
的 人 来 说 ， 这 是 天 赐 之 物 。admin 是 一 个 应 用 ， 每 个 Web 
能 够 创建 、 更 新 或 删除 新 的 记录 。 如 果 应 


解决 了 这 个 问题 ， 其 通过 让 开发 者 


Tei 








pa 
ri 





























j 这 个 应 








Uncomment the next line to enable admin documentation: 



































Jo 就 如 同 
次 滚动 到 最 下 方 的 INSTALLED. APPS 元 组 。 





这 里 关心 的 是 第 一 个 被 注释 掉 的 项 ， 即 “django.contrib.admin”。 BRAT WIFE'S GE 
来 启用 这 一 选项 。 第 二 个 是 可 选 的 Django 管理 文档 生成 器 。Admindocs 应 用 通过 提取 Python 
文档 字符 串 (“docstring”) 来 为 项 目 自动 生成 文档 ， 并 让 admin 访问 。 读 者 想 启用 它 当然 没 
问题 ， 只 是 这 个 例子 中 不 会 用 到 。 

每 次 向 项 目 中 添加 新 应 用 时 ， 需 要 执行 syncdb， 来 确保 在 数据 库 中 创建 所 需 的 表 。 这 里 














向 INSTALLED_APPS : 
































添加 了 admin 应 月 


























昌 ,接着 运行 syncdb 来 在 数据 库 中 为 其 创建 一 个 表 。 
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$ ./manage.py syncdb 

Creating tables ... 

Creating table django admin log 
Installing custom SQL ... 
Installing indexes ... 


No fixtures found. 





























既然 admin 设置 完成 ， 所 要 做 的 就 是 给 定 一 个 URL， 这 样 才能 访问 admin 页面。 在 自动 





生成 的 项 目 urls.py 中 ， 可 以 在 顶部 发 现 如 下 内 容 。 





Uncomment the next two lines to enable the admin: 
from django.contrib import admin 


admin.autodiscover () 


而 在 底部 有 一 个 注释 掉 了 这 个 二 元 组 全 局 变 urlpatters 。 














Uncomment the next line to enable the admin: 





(r'^admin/', include (admin.site.urls)), 























取消 这 三 行 的 注释 并 保存 文件 。 现 在 当 用 户 访问 Web 站 点 的 http://ocalhost:8000/admin 














WEBER], Django 就 能 载 入 默认 的 admin 页 面 ， 









































最 后 , 应 用 程序 需要 告知 Django 哪个 模型 需要 在 admin 页 面 中 显示 并 编辑 。 为 了 做 到 这 

















一 点 ， 只 须 注 册 BlogPost。 创 建 blog/admin.py， 问 其 中 添加 下 面 的 代码 。 





# admin.py 
from django.contrib import admin 


from blog import models 


admin.site.register (models.BlogPost) 


前 两 行 导入 了 admin 和 数据 模型 。 紧 接着 用 admin 注册 BlogPost 28, ixf 
里 数据 库 中 这 种 类 型 的 对 象 〈 以 及 其 他 已 经 注册 的 对 象 )。 


11.8.2 {FA admin 


























my 

































































É admin 就 可 以 


既然 通过 admin 注册 了 应 用 的 模型 ， 就 试用 一 下 。 再 次 使 用 manage.py runserver 命令 ， 








并 访问 与 之 前 相同 的 链接 (http:/127.0.0.1:8000 或 http://localhost:8000)。 看 到 
一 个 错误 页 面 。 有 具体 来 说 ， 应 该 是 一 个 404 错误 ， 如 图 11-5 所 示 。 














了 什么 ?其 实 是 


"B 





























为 什么 会 得 到 这 个 错误 ?因为 还 没有 为 “/” 这 个 URL 定义 动作 。 现 在 唯一 启用 的 仅仅 
是 /admin ， 所 以 需要 直接 访问 这 个 URL, BD yj jj http:/127.0.0.1:8000/admin 或 











http://localhost:8000/admin， 或 直接 在 浏览 器 中 现 有 的 地 址 后 面 加 上 /admin。 
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Th 
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BRS D) Page not found at / x Wes k 
|e > Q ff © localhost:8000 2) 3€)4 





Page not found (404) 


Request Method: GET 
Request URL: http://localhost:8000/ 


Using the URLconf defined in mysite.uris, Django tried these URL pattems, in 
this order: 

1. ^admin/ 
The current URL, , didn't match any of these. 


You're seeing this error because you have DESUG = True in your Django 
settings file. Change that to False, and Django will display a standard 404 page. 





Al 11-5 404 错误 











实际 上 ， 如 果 仔 细 查 看 错误 页 面 ，Django 会 通知 你 只 有 /admin 可 用 ， 因 为 其 尝试 了 所 有 


链接 。 注 意 ， 








那个 “It Worked!” 页 面 是 一 个 特例 ， 仪 用 于 没有 为 应 用 设置 任何 URL 的 情形 
《如 果 没 有 处 理 这 种 特殊 情形 ， 同 样 会 得 到 404 错误 )。 





如 果 正 常 访 问 admin 页 面 ， oe 11-6 所 示 的 非常 友好 的 登录 页 面 。 








输入 前 























面 创建 的 超级 用 户 的 用 户 名 和 密码 。 登 录 后 ,可 以 看 到 如 图 11-7 所 示 的 admin 主页 。 











其 中 有 通 过 admin 应 用 注册 的 所 有 类 admin 允许 操作 位 于 数据 库 中 的 这 些 类 ， 包 


舌 Users 类 

















也 内 容 或 


， 因 此 这 





超级 用 户 。 


意味 着 可 以 〈 通 过 友好 的 Web 界面 ， 而 不 是 命令 行 或 shell 环境 ) 添加 其 


ieooy l} Log in | Django site admin * bor 


€ > C FF © localhost:8000/admin/ v; | BD A A 


Django administration 


Username: 


Password 








页 


11-6 admin 登录 页 面 
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8909, | 1 Site administration | Djang n | 
| } 
€ > Œ fF © localhost:8000/admin/ S 3 E q | 


Django administration Welcome, wesley. Change password / Log out 


Site administration 
Recent Actions 


Groups +A My Actions 


Users b Add ha None available 
Blog posts i Add 


Sites d Add 














图 11-7 admin 主页 





核心 提示 : 为 什么 这 里 没有 列 出 我 的 类 

有 时 , 列表 中 可 能 没有 列 出 添加 的 类 。 有 三 种 常见 的 原因 会 导致 admin 不 会 显示 应 用 
的 数据 。 

1. 忘记 通过 admin.site.register() 注 册 模 型 类 。 

2. 应 用 的 models.py 文件 中 存在 错误 。 

3. 忘记 将 应 用 添加 到 settings.py 文件 中 的 INSTALLED. APPS 元 组 中 。 

















现在 ， 来 看 看 admin 的 真正 力量 : 处 理 数据 的 能 力 。 如 果 单 击 Blog posts 链接 ， 会 跳 转 
到 一 个 页 面 ， 其 中 列 出 数据 库 的 所 有 BlogPost 对 象 〈 见 图 11-8)， 目 前 只 有 一 个 前 面 在 shell 
中 输入 的 对 象 。 

注意 ， 图 11-8 中 为 这 个 BlogPost 对 象 使 用 的 是 通用 的 “BlogPost object” 标 签 。 为 什么 
这 篇 博文 有 这 个 掏 口 的 名 称 ”Django 可 以 处 理 不 同类 型 的 内 容 ， 所 以 其 不 会 猜测 某 篇 文章 最 
合适 的 标签 ， 而 是 直接 使 用 一 个 通用 标签 。 

因为 现在 能 确认 这 篇 文章 就 是 之 前 输入 的 数据 ， 且 不 会 与 其 他 的 BlogPosts RANE, 
所 以 无 需 这 个 对 象 的 额外 信息 。 单 击 这 篇 文章 来 进入 编辑 页 面 ， 如 图 11-9 所 示 。 

自由 改变 其 中 的 内 容 ， 接 着 单 击 Save 按钮 ， 然 后 添加 其 他 项 ， 以 此 来 验证 可 以 从 Web 
表单 中 创建 新 的 项 (而 不 是 从 命令 行 中 )。 图 11-10 显示 的 表单 与 之 前 的 编辑 页 面 非常 相似 。 
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/ l) Select blog post to change x \ 
€»cfi | © localhost:8000/admin/blog/blogpost/ 









Django administration 






Home » Blog » Blog post 









Select blog post to change Add blog post 


© Blog post 
日 BlogPost object 


1 blog post 

















图 11-8 ”唯一 一 个 BlogPost 对 象 

















18.0.07 E cnange siog post 1 Django CE ÉL 
| eo> cC | © localhost:8000/admin/blog/blogpost/1/ w | J Im] a EY 
| For quick access, place your bookmarks here on the bookmarks bar. Import bookmarks now... C Other Bookmarks 


Django administration Welcome, wesley. Change password / Log out 





Home » Blog : Blog posts + BlogPost object 


| Change blog post «T» 
Title: test cmd-line entry 
Body: 


yo, my 1st blog post... 
it's even multilined! 


Timestamp: Date: 2010-12-11 Today [7] 
Time: 16:38:37 | Now O 


9t Delete Save and add another | Save and continue editing | [FS] 














图 11-9 命令 行 创建 的 BlogPost 项 的 Web 视图 
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C) Add blog post | Django site > 
€ > Q fi © locathost:8000/admin/biog/blogpost/add/ 


Welcome, wesley. Change password / Log out | 


Django administration 


Home : Blog » Blog posts » Add blog post 
© The blog post “BlogPost object” was changed successfully. You may add another blog post below. 


Add blog post 
Title: 


Body: 


Timestamp: 


Save and add another | Save and continue editing 








图 11-10 在 保存 了 之 前 的 文章 后 ， 现 在 可 以 添加 新 的 文章 


新 的 BlogPost 怎么 能 没有 内 容 昵 ? 所 以 为 文章 设置 标题 和 一 些 有 趣 的 内 容 ,如 图 11-11 所 示 。 
PISA, AA Today 和 Now 链接 来 填充 当前 日 期 与 时 间 。 也 可 以 单 击 日 历 和 时 钟 图 标 ， 显 
示 出 一 个 易 用 的 日 期 和 时 间 选 择 器 。 完 成 博文 正文 的 编写 后 ， 单 击 Save 按钮 。 














L D) Add blog post | Django site * V. 
e> c fi | © localhost:8000/admin/blog/blogpost/add/ 





Welcome, wesley. Change password / Log out 


Django administration 


Home » Blog » Blog posts + Add blog post 
© The blog post “BlogPost object” was changed successfully. You may add another blog post below. 


Add blog post 
Title: test admin entry 


Body: 
this blog entry was created using Django's cool admin app! 


Timestamp: Date: 2010-12-13 Today E 
Time: 00:13:01 Now ©) 


Save and add another Save and continue editing 














图 11-11 直接 从 admin 中 添加 新 的 博文 
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文章 保存 到 数据 库 中 之 后 , 就 会 弹出 一 个 页 面 显示 一 条 确认 消息 (The blog post “BlogPost 
object" was added successfully. )， 以 及 所 有 博文 的 列表 ， 如 图 11-12 所 示 。 
注意 ， 输 出 结果 并 没有 改变 。 实 际 上 ， 由 于 现在 有 了 两 个 无 法 区 分 的 BlogPost 对 象 ， 情 




















况 还 变 得 更 糟 了 。 























现在 所 有 博文 都 使 用 “BlogPost object” 标 签 。 不 止 一 个 读者 会 思考 :“ 应 





该 有 更 好 的 方法 来 让 显示 的 结果 更 有 用 !” 当 然 ，Django 可 以 做 到 。 
在 前 面 ， 使 用 了 最 精简 的 配置 启用 了 admin 工具 ， 即 使 用 admin 应 用 本 身 注册 了 模型 。 
但 通过 额外 两 行 代 码 ， 并 修改 注册 调用 ， 可 以 更 好 且 更 有 用 地 显示 博文 列表 。 更 新 
blog/admin.py 文件 ， 使 用 新 的 BlogPostAdmin 类 ， 并 将 其 添加 到 注册 行 中 ， 如 下 所 示 。 
# admin.py 






























































from django.contrib import admin 


from blog import models 


class BlogPostAdmin (admin.ModelAdmin): 


list display = ('title', 'timestamp') 


admin.site.register(models.BlogPost, BlogPostAdmin) 


600, [C] Select blog post to change acl 
|€ > Œ K © localhost:8000/admin/blog/blogpost/ w a A a 


Django administration Welcome, wesley. Change password / Log out 


B 


| © The blog post "BlogPost object” was added successfully 


Select blog post to change «TTD 


BlogPost object 


2b 


注意 ， 因 为 在 





og posts 























图 11-12 保存 了 新 的 BlogPost 对 象 。 现 在 有 两 篇 无 法 区 分 的 博文 











这 里 定义 了 BlogPostAdmin， 而 没有 在 blog/models.py 模块 中 作为 属性 来 添 








加 ， 所 以 没有 注册 




















models.BlogPostAdmin。 如 果 刷 新 admin 页 面 查 看 BlogPost 对 象 〈 见 图 








11-13), 现在 会 看 到 更 有 效 的 输出 , 这 个 列表 根据 添加 到 BlogPostAdmin 类 中 新 的 list. display 





变量 显示 内 容 。 
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图 11-13 中 的 内 容 ， 很 好 地 区 分 开 了 两 篇 文章 。 对 于 刚 接触 Django 的 开发 者 来 说 ， 可 能 
会 惊讶 只 改动 三 行 代码 就 对 结果 产生 了 如 此 大 的 变化 。 





eoo | | Select blog post to change ¥ 
€ > Œ ff ©& localhost:8000/admin/blog/blogpost/ pu a ny] EU 
Django administration Welcome, wesley. Change password / Log out 
Hone v Woe 

Select blog post to change «TITTITD 

tion: fx $! Go 

O Tit Timestam p 

O test admin entry Dec. 13, 2010, 12:13 a.m. 

EJ test cmd-line entry Dec. 11, 2010, 4:38 p.m 


























图 11-13 ”改进 后 的 结果 











尝试 单 击 Title 或 Timestamp 一 栏 ， 可 以 看 到 对 博文 进行 了 排序 。 例 如 ， 单 击 Title 栏 ， 
文章 按照 标题 升序 进行 排列 ， 第 二 次 单 击 会 按 降序 排列 。 还 可 以 尝试 按照 时 间 排 序 。 这 些 功 
已 经 内 置 到 admin 中 。 无 须 像 以 前 那样 手动 添加 相关 代码 。 

admin 还 有 其 他 有 用 的 功能 ， 这 些 功 能 只 需 一 两 行 代码 就 能 启用 ， 如 搜索 、 自 定义 排序 、 
过 滤 等 。 现 在 仅仅 刚刚 接触 到 admin 的 皮毛 ， 但 希望 已 经 激发 了 读者 对 admin 的 兴 


11.9 创建 博客 的 用 户 珊 面 


前 面 完成 的 任务 仅仅 针对 开发 者 。 应 用 的 用 户 既 不 会 使 用 Django shell, 也 不 会 使 用 admin 
工具 。 所 以 现在 需要 构建 面向 用 户 的 界面 。 从 Django 的 角度 来 看 ，Web 页 面 应 该 有 以 下 几 个 
经 典 组 件 。 

。 一 个 模板 ， 用 于 显示 通过 Python 类 字典 对 象 传 入 的 信息 。 

。 一 个 视图 函数 ， 用 于 执行 针对 请 求 的 核心 逻辑 。 视 图 会 从 数据 库 中 获取 信息 ， 并 格 

式 化 显示 结果 。 
。 一 个 URL 模式 ,将 传 入 的 请 求 映射 到 对 应 的 视图 中 , 同时 也 可 以 将 参数 传递 给 视图 。 









































anb 
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在 到 




















解 这 些 内 容 时 ， 可 以 先 看 Django 是 如 何 处 理 请 求 的 。Django 






















































































而 这 里 将 用 稍微 不 同 的 顺序 来 构建 应 用 




















1. 因为 需要 一 些 可 以 观察 的 内 容 ， 所 以 先 创建 基本 的 模板 。 





2. 设计 一 个 简单 的 URL 模式 ， 让 Django 可 以 立刻 访问 应 用 。 
































3. 开发 出 一 个 视图 函数 原型 ， 然 后 在 此 基础 上 从 代 开发 。 












































使 用 这 个 顺序 的 主要 原因 是 因为 模板 和 URL 模式 不 会 发 生 较 大 
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自 底 向 上 处 理 请 求 ， 它 间 




































































先 查 找 匹 配 的 URL 模式 , 接着 调用 对 应 的 视图 函数 ,最 后 将 泻 染 好 的 数据 通过 模板 展现 给 用 户 。 

















的 改变 ,而 应 用 的 核心 是 


视图 , 所 以 先 快速 构建 一 个 基本 视图 , 在 此 基础 上 逐步 完善 。 这 非常 符合 测试 驱动 模型 (TDD) 








的 开发 模式 。 
11.9.1 创建 模板 


Django 的 模板 语言 非常 简单 ， 所 以 直接 介 
显示 一 篇 博文 (基于 BlogPost 对 象 的 属性 )。 



































EZR 


N 





























<h2>{{ post.title }}</h2> 
<p>{{ post.timestamp }}</p> 
<p>{{ post.body }}</p> 



































示例 代码 。 下 面 是 一 个 简单 的 模板 ， 用 于 














读者 可 能 已 经 注意 到 ， 这 只 是 一 个 HTML xH 






















































































HE 














须 添加 圆 括号 “0” 来 表示 这 是 个 函数 或 方法 调用 。 
在 变量 标签 中 还 可 以 使 用 特殊 函数 ， 它 们 称 为 
即 对 变量 进行 处 理 。 所 要 做 的 只 是 在 变量 的 右边 插 































































































E CR Django 模板 可 用 于 任何 形式 的 文 


过 滤器 
JN 个 管道 符号 




















名 称 。 例如 ,如果 想 获得 BlogPost 标题 的 首 字母 大 2 























过 滤器 
<h2>{{ post.title|title }}</h2> 


这 意味 着 当 模 板 遇 到 “test admin entry” FE 
<h2> Test Admin Entry</h2> 。 











本 输出 )， 外 加 一 些 由 花 括号 ({{ .… D 括 起 来 的 标签 。 这 些 标签 称 为 变量 标签 ， 花 括号 内 
j 于 显示 对 象 的 内 容 。 在 变量 标签 中 ， 可 以 使 用 Python 风格 的 点 分 割 标识 访问 这 些 变量 的 属 
o 这 些 值 可 以 是 纯 数据 ， 也 可 以 是 可 调用 对 象 ， 如 果 是 后 者 ， 会 自动 调用 这 些 对 象 ， 而 无 


























过 滤器 是 函数 ， 它 能 在 标签 中 立 











(“|”)， 接 着 跟 上 过 滤器 














写 形式 , 则 可 以 通过 下 面 的 形式 调用 title() 





的 post.title， 最 终 的 HTML 输出 会 转 成 














传递 给 模板 的 变量 是 特殊 的 Python 字典 ， 称 为 上 下 文 (context)。 在 前 面 的 例子 中 ， 假 





设 通过 上 下 文 传 入 的 BlogPost RAB A “post”. | 





title, body 和 timestamp 字段 。 现 在 向 模板 添加 一 些 有 用 的 功能 。 如 通过 上 下 文 传 入 所 有 的 博 























文 ， 这 样 就 可 以 通过 循环 来 显示 所 有 文章 。 


«!-- archive.html --» 





($ for post in posts %} 








原来 的 三 行 分 别 月 








日 于 获取 BlogPost 对 象 的 
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<h2>{{ post.title }}</h2> 
<p>{{ post.timestamp }}</p> 


<p>{{ post.body }}</p> 


<hr> 


{% endfor %} 
































Wi AB = TA ah, Rei “MRO HT ER, ATA. NT f 


到 这 一 点 , 需要 引入 Django 模板 语言 的 另 一 个 结构 : 块 标签 














断 这 样 的 逻辑 。 















































默认 情况 下 ， 搜 索 模板 时 ，Django 会 在 每 个 安装 的 应 月 


而 块 标签 通过 花 括号 和 百 分 号 来 表示 : (96... 96). "ELIT 









































将 上 面 的 HTML 模板 代码 保存 到 一 个 简单 的 模板 文件 





中 用 文件 夹 下 新 建 的 templates 文件 夹 中 。 这 档 
/archive.html o 模板 的 名 称 可 以 外 






































。 变量 标签 通过 一 对 花 括号 分 割 |， 
于 向 HTML 模板 中 插入 如 循环 或 判 





























， 命 名 为 archive.html。 放 置 在 
E, 模板 文件 的 路 径 应 该 为 mysite/blog/templates 
E 取 (甚至 可 以 命名 为 foo.htmD , 但 模板 目录 必须 为 templates. 



































关于 模板 和 标签 的 更 多 信息 ， 请 参考 
ref/templates/api/#basics o 

PENA EN E 

从 用 户 的 角度 了 解 视图 。 


11.9.2 创建 URL 模式 









































函数 做 准备 ， 执 行 视 医 








HIP Hoe 








搜索 templates 目录 。 


吉方 文档 页 面 http://docs.djangoproject.com/en/dev/ 





能 看 到 全 新 的 模板 。 在 创建 视图 之 前 ， 先 














本 节 将 介绍 用 户 浏览 器 中 URL 的 路 径 名 如 何 映射 到 应 用 的 不 同 部 分 。 当 用 户 通 过 浏览 器 









































x 
=> 























及 务 器 默认 使 





也 端口 (Django 开发 月 


项 目的 URLconf 








发 出 一 个 请 求 时 ， 因 特 网 会 通过 某 种 方式 将 主 
J 




















| 8000 端口 ) 与 服务 器 的 




















JL I IP 地 址 映射 起 来 ， 接 着 客户 端 在 80 或 
也 址 连接 起 来 。 























服务 器 通过 WSGI 的 功能 ， 最 终 会 将 请 求 传递 给 Django。 接 受 请 求 的 类 型 (GET. POST 





等 ) 和 路 径 CURL | 





主机 、 端 口 





Cmysite/urls.py)。 这 些 信 息 必 须 通过 正则 表达 式 ] 
返回 404 错误 ， 就 像 11.8.2 Ti? 






































遇 到 的 那样 ， 








我 们 希望 在 其 他 地 方 也 能 使 



































码 重 用 、DRY、 在 一 处 调试 相同 的 代码 等 准则 。 为 了 
需要 通过 两 步 来 定义 URL 



































第 一 步 就 像 之 前 启 月 
要 用 到 的 。 它 在 urlpatterns 变量 的 起 始 处 。 









































= 





] blog 应 用 ， 所 以 需要 








映射 规则 并 创建 两 个 URLconf: 





H admin ASHE. AEA BHA 


























之 外 的 内 容 ) 并 传递 到 项 目的 URLconf 文件 
匹配 到 对 应 的 路 径 中 。 和 否则 ， 服 务 器 会 
因为 没有 为 “/” 定 义 处 理 程 序 。 
此 时 需要 直接 在 mysite/urls.py 中 创建 URL 模式 ， 但 这 样 会 混淆 项 目 和 应 用 的 URL. 





























NL FH fe A vr B 
E 确 分 离 项 














己 的 URL。 这 样 符 合 代 
目 和 应 用 的 URL 配置 ， 












































个 是 用 于 项 目 ， 一 个 用 于 























成 的 mysite/urls.py 中 ， 注 释 掉 的 那 两 行 就 是 
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urlpatterns - patterns('', 
# Example: 


# (r'^mysite/', include('mysite.foo.urls')), 














取消 这 里 的 注释 ， 对 名 称 进 行 相应 的 修改 ， 证 其 指向 应 用 的 URLconf. 
(r'^blog/', include('blog.urls')), 


includeO 函 数 将 动作 推迟 到 其 他 URLconf (当然 是 应 用 的 URLconD 中 。 在 这 个 例子 中 ， 
将 以 blog/ 开 头 的 请 求 缓存 起 来 ， 并 传递 给 将 要 创建 的 mysite/blog/urls.py CX T include f] E 
多 内 容 将 在 下 面 介 绍 )。 

与 之 前 设置 admin 应 用 一 样 ， 现 在 项 目的 URLconf 应 该 如 下 所 示 。 




























































































# mysite/urls.py 
from django.conf.urls.defaults import * 


from django.contrib import admin 


admin.autodiscover () 


urlpatterns = patterns('', 
(r'^blog/', include('blog.urls')), 
(r'^admin/', include(admin.site.urls)), 
) 


patternsO 函 数 接受 两 个 元 组 CURL 正则 表达 式 、 目 标 )。 正 则 表达 式 很 容易 理解 ， 但 目 
标 是 什么 ? 目标 要 么 是 URL 需要 的 匹配 其 模式 的 视图 函数 ， 要 么 是 include0 中 另 一 个 
URLconf 文件 。 
当 使 用 includeO 时 , 会 移 除 当前 的 URL 路 径 头 , 路 径 中 剩 下 的 部 分 传递 给 下 游 URIconf 
中 的 pattemsO 函 数 。 例 如 , 当 在 客户 端 浏览 器 输入 http://localhost:8000/blog/foo/bar 这 个 URL 
时 ， 项 目的 URLconf 接收 到 的 是 blog/foo/bar。 其 匹配 “^blog” 正 则 表达 式 ， 并 找到 一 个 
includeO 函 数 ( 与 视图 函数 相反 ), 所 以 其 将 foo/bar 传递 给 mysite/blog/urls.py 中 匹配 的 URL 
处 理 程序 。 

include) 中 的 参数 “blog.urs” 就 负责 处 理 这 个 事情 。 另 一 个 类 似 的 情形 是 对 于 
http://localhost:8000/admin/xxx/yyy/zzz， 其 中 xxx/yyy/zzz 会 传递 给 admin/site/urls.py， 即 
inlcude(admin.site.urls) 中 指定 的 。 现 在 如 果 读 者 细心 ,可 能 注意 到 在 代码 中 有 奇怪 的 地 方 ,是 
否 少 了 一 些 内 容 ? 仔细 看 看 include0 函 数 的 调用 。 

读者 是 否 注意 到 blog.urls 用 引号 括 起 来 ， 而 admin.site.urls 没有 ? 这 不 是 一 个 输入 错误 。 
patterns) FU include() 都 接受 字符 串 或 对 象 。 一 般 使 用 字符 串 ,， 但 有 些 开 发 者 更 愿意 传递 对 象 。 
所 要 记 住 的 是 ， 当 传递 对 象 时 ， 要 确保 已 经 导入 该 对 象 。 在 前 面 的 例子 中 ，import 
django.contrib.admin 完成 了 这 个 任务 。 
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下 一 节 将 看 到 


开发 


男 一 个 使 月 








示例 。 关 于 字符 串 与 对 象 类 型 的 


并 


























多 内 容 参见 这 个 文档 页 面 : 








http://docs.djangoproject.com/en/dev/topics/http/urls/#passing-callable-objects-instead-of-strings 。 


应 用 的 URLconf 








通过 include() 8.27 blog.urls, ik 





匹配 blog 






































应 用 的 URL 将 剩余 的 部 分 传递 到 blog 应 用 


处 理 。 创 建 一 个 新 文件 mysite/blog/urls.py， 添 加 下 面 的 代码 。 





# urls.py 


from django.conf.urls.defaults import * 


import blog.views 


urlpatterns = patterns('', 


(r'^$' 
) 


这 与 项 目的 URLconf 非常 相似 。 首 先 ， 提 醒 


的 是 根 URLconf, 





blog.views. 


, 


I 


[1 经 













































































archive), 








下 ， 请 求 URL 的 头 部 分 (blog/) 





匹配 到 














被 去 除了 。 所 以 只 须 匹 配 到 空 字符 串 ， 即 通过 正则 表达 式 ^$ 处 理 。 













































































BaZ 
blog 应 用 现在 可 以 重用 并 无 须 担 心 它 挂 载 到 blog/ 还 是 news/， 或 者 其 他 链接 下 面 。 唯 一 没 介 
绍 的 是 这 里 发 送 请 求 时 用 到 的 archiveO 视 图 函数 。 
与 新 的 视图 函数 一 起 工作 只 须 简单 地 向 URLconf 添加 一 行 代 码 。 换 句 话说 ， 如 果 添 加 视 
图 函数 fgo0 和 bar0， 只 项 将 urlpatterns 修改 成 下 面 这 样 〈 仅 仅 是 演示 ,不 要 真 的 把 foo 和 bar 
添加 到 自己 的 文件 中 了 )。 



































urlpatterns = patterns('', 


(r'^$' 

(r'foo 

(r'bar 
) 























这 样 违反 DRY Jii Ul 




















这 个 参数 是 视 





, blog.views. 


£T 
ar 


blog.view 
blog.view 


patternsO 中 的 一 个 特性 ， 即 第 一 个 参数 ， 且 
所 以 可 以 将 blog.views 移 到 这 里 ， 移 除 下 面 重复 的 内 容 ， 并 修 
PX import 语句 ， 使 其 不 会 出 现 NameError。 修 改 后 的 URLconf 应 该 如 下 所 示 。 


DX 
组 , 





图 的 前 


1 。 读 者 是 否 注 


archive), 
s.foo), 


s.bar), 


目前 一 切 正常 ， 如 果 继 续 在 Django 中 开发 ， 需 要 一 次 次 回头 修改 这 个 文件 ， 就 会 意识 到 














FE 意 到 所 有 引 











都 是 blog.views 中 的 视图 














函数 ? 这 表示 应 该 使 
前 这 个 参数 是 个 空 字符 串 。 
































from django.conf.urls.defaults import * 


from blog.views import * 


urlpatterns = patterns('blog.views', 


(r'^$' 
(r'foo 
(r'bar 


, archive), 


iar 
/ 


foo), 
bar), 
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根据 import 语句 ， 这 三 个 函数 都 应 该 位 于 mysite/blog/views.py 中 。 从 前 面 的 介绍 中 可 以 
知道 ， 导 入 它 了 之 后 ， 就 可 以 传递 对 象 了 ， 就 如 同 之 前 例子 中 的 archive, foo. bar 那样 。 但 
能 否 更 懒 一 点 ， 直 接 不 使 用 import 语句 呢 ? 

前 一 节 介绍 过 ， 除 了 对 象 之 外 ，Django 还 支持 在 参数 中 使 用 字符 串 ， 所 以 可 以 省 去 那些 
导入 语句 。 如 果 移 除 导 入 语句 ， 并 在 视图 名 称 两 侧 加 上 引号 ， 一 切 正 常 。 






























































from django.conf.urls.defaults import * 


urlpatterns = patterns('blog.views', 
(r'^$', 'archive'), 
(r'foo/', 'foo'), 
(r'bar/', 'bar'), 
) 
foo0 和 bar0 在 示例 应 用 中 不 存在 , 但 一 般 正 式 的 项 目 在 应 用 的 URLconf 有 多 个 视图 。 这 
里 仅仅 介绍 了 基本 的 代码 清理 方式 。 关 于 整理 URLconf 文件 的 更 多 内 容 ， 可 以 参考 Django 
文档 : http://docs.djangoproject.com/en/dev/intro/ tutorial03/#simplifying- the-urlconfs. 
最 后 一 部 分 是 控制 器 ， 控 制 器 会 调用 匹配 URL 路 径 的 视图 函数 。 


11.9.3 ”创建 视图 函数 

本 节 将 重点 讨论 视图 函数 ， 这 是 应 用 的 核心 功能 。 视 
首先 为 那些 心急 的 读者 展示 如 何 快速 开始 , 然后 再 介绍 细 
视图 函数 。 

“Hello World” 伪 视图 

想 在 开发 早期 创建 完整 的 的 视图 之 前 就 调试 HTML 模板 和 URLconf? 完全 能 做 到 ! 生成 
一 个 假 的 BlogPost， 立 即 泻 染 到 模板 中 创建 “Hello World" mysite/blog/views.py 这 个 只 含有 
6 行 代码 的 文件 (有 一 个 折 行 )。 


# views.py 









































































































































PA 





函数 的 开发 过 程 比较 长 ， 所 以 
， 揭示 如 何在 实际 中 正确 处 理 
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from datetime import datetime 
from django.shortcuts import render to response 


from blog.models import BlogPost 


def archive (request): 
post = BlogPost(title-'mocktitle', body='mockbody', 
timestamp-datetime.now()) 


return render to response('archive.html', {'posts': [post]}) 


根据 URLconf 中 的 标识 ， 知 道 这 个 视图 需要 由 archive0 调 用 。 这 个 代码 创建 一 篇 假 的 博文 ， 
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以 只 含有 单个 元 素 的 博文 列表 的 形式 传递 给 模板 不 要 调 















































] postsave0， 猜 猜 为 什么 )。 


后 面 将 回 到 render_to_response0， 但 读者 可 以 想象 一 下 ， 猜 测 其 将 模板 Carchive.html, 
位 于 mysite/blog/templates F) 和 上 下 文字 典 合并 到 一 起 ,返回 给 用 户 生成 的 HIML。 这 个 读 

















者 猜 对 了 。 








正常 工作 后 ， 能 看 到 类 似 图 11-14 中 的 内 容 。 














eoo 


Jan. 8, 2011,2 


mockbody 

















—J [jlocalhost:8000/blog/ 


mocktitle 


:32 p.m. 











图 11-14 ” 伪 视 图 的 输出 结果 









































€ > CŒ ff © localhost:8000/blog/ 三 | 39 KY A 











速 ， 表 明 现 在 可 以 安全 地 开始 真正 的 工作 。 











真实 的 视图 
现在 将 会 创建 一 些 真 的 东西 ， 























一 个 简单 的 视图 函数 会 从 数据 库 中 获取 所 有 博文 ， 并 使 用 





启动 开发 服务 器 (或 真正 的 Web 服务 器 )。 处 理 URLconf 或 模板 中 可 能 的 错误 ， 当 它 能 


使 用 伪 视 图 和 半 伪 造 的 数据 能 快速 验证 应 用 的 基本 设置 是 否 正确 。 这 种 迭代 过 程 非常 快 


























模板 显示 给 用 户 。 首 先 ， 将 用 正常 的 方式 来 完成 该 任务 ， 意 味 着 将 遵循 下 面 的 步骤 ， 从 获取 











数据 到 向 客户 端 返 回 HTTP 响应 。 














。 向 数 据 库 查 询 所 有 博客 条 目 。 





e 载 入 模板 文件 。 

。 ”为 模板 创建 上 下 文字 上 典 。 
。 将 上 下 文 传递 给 模板 。 

。 将 模板 泻 染 到 HTML 中 














o 


。 通过 HTTP 响应 返回 HTML . 























打开 blog/views.py， 输 入 下 





用 的 代码 。 这 段 代码 会 执行 与 前 








了 假 的 views.py 文件 中 的 内 容 。 


# views.py 


RUE ISTE PLE, 











EMM EN 
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from django.http import HttpResponse 
from django.template import loader, Context 


from blog.models import BlogPost 


def archive (request): 
posts - BlogPost.objects.all() 
t = loader.get template ("archive.html") 
c = Context(('posts': posts]) 


return HttpResponse (t.render(c)) 


检查 开发 (或 真实 的 Web) 服务 器 ， 在 浏览 器 中 访问 应 用 。 可 以 看 到 一 个 简单 的 、 演 染 
的 博文 (使 用 的 是 真实 的 数据 ) 列 表 。 其 中 含有 标题 .时 间 恰 、 文 章 正文 ,用 水 平 线 分 割 (<hr> )， 
与 图 11-15 类 似 〈 这 里 只 有 两 篇 文章 )。 
很 好 ! 但 记 住 “不 要 自我 重复 ”这 个 传统 ，Django 的 开发 者 也 知道 这 条 极其 常见 的 模式 
(获取 数据 ， 泻 染 到 模板 ， 返 回 啊 应 )， 所 以 他 们 为 从 简单 的 视图 函数 泻 染 到 模板 创建 了 快捷 
方式 。 这 就 需要 再 次 接触 到 render_to_response()。 








































































































eoo 


| jlocalhost:8000/blog/ 





p 


|« > Q f$ © localhost:8000/blog/ $? J [Fry a 
上 








test cmd-line entry 


Dec. 11,2010, 4:38 p.m. 


you, my Ist blog post... it's even multilined! 


test admin entry 


Dec. 13, 2010, 12:13 a.m. 


this blog entry was created using Django's cool admin app! 

















图 11-15 用 户 看 到 的 博文 














前 面 在 伪 视 图 中 见 过 render_to_response(), 但 现在 处 理 的 是 真 的 视图 。 从 django.shortcuts 
导入 render_to_response()， 并 移 除 现在 不 需要 的 loader. Context, HttpResponse, fj A 
中 最 后 三 行 。 现 在 它 应 该 如 下 所 示 。 




















# views.py 
from django.shortcuts import render to response 


from blog.models import BlogPost 
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def archive (request): 
posts - BlogPost.objects.all() 


return render to response('archive.html', ('posts': posts]) 
如 果 刷 新 浏览 器 ,不 会 有 任何 改变 ， 因 为 仅仅 是 缩短 了 代码 ， 而 功能 没有 发 生 任何 改变 。 
关于 使 用 render_to_response(O) 的 更 多 内 容 ， 可 以 查看 下 面 的 官方 文档 。 


e http://docs.djangoproject.com/en/dev/intro/tutorial03/#a-shortcut-render-to-response 






































e http://docs.djangoproject.com/en/dev/topics/http/shortcuts/#render-to-response 
快捷 方式 仅仅 是 一 个 开始 。 还 有 其 他 类 型 的 视图 函数 ， 称 为 通用 视图 ， 它 比 render_to_ 


response(O 更 易 用 。 通 过 通用 视图 ， 甚 至 无 须 编 写 视 图 函数 ， 直 接 在 URLconf 中 映射 Django 
提供 的 现成 的 通用 视图 。 通 用 视图 的 主要 目标 之 一 就 是 避免 编写 任何 代码 ! 


11.10 ”改进 输出 


就 是 这 样 , 现在 完成 了 三 个 步 又, 得 到 了 一 个 可 以 工作 的 应 用 , 有 了 面向 用 户 的 界面 (不 
依赖 Admin 中 对 数据 的 CRUD 操作 )。 有 了 可 以 工作 的 简单 博客 , 它 可 以 响应 客户 端的 请 求 ， 
从 数据 库 中 提取 信息 ， 向 用 户 显 示 所 有 博文 。 很 好 ， 但 依然 可 以 做 一 些 有 用 的 改进 ， 来 实现 
一 些 实际 的 功能 。 

其 中 一 个 合理 的 方向 是 按时 间 逆 序 显示 博文 ， 即 将 最 新 的 博文 显示 在 最 前 面 。 另 一 个 是 
限制 显示 的 数目 。 如 果 有 超过 10 篇 (哪怕 是 5 篇 ) 文章 显示 在 同一 页 , 用户 就 会 觉得 太 长 了 。 
首先 ， 来 看 看 按时 间 逆 序 排列 。 

很 容易 让 Django 做 到 这 一 点 。 实 际 上 ， 有 多 种 方式 可 以 做 到 这 一 点 。 可 以 向 模型 添 
加 默认 的 排序 方式 ， 也 可 以 向 视图 代码 添加 查询 方式 。 这 里 先 使 用 后 者 ， 因 为 后 者 更 容易 
解释 。 


11.10.1 修改 查询 


先 回想 一 下 前 面 的 内 容 ，BlogPost 是 数据 模型 类 。Objects 属性 是 模型 的 Manager 类 ， 其 
中 含有 all0 方 法 来 获取 QuerySet。 可 以 认为 QuerySet 是 数据 库 中 的 每 行 数据 ,但 其 实 QuerySet 
不 是 真实 的 每 一 行 数据 ， 因 为 QuerySet 执行 “惰性 迭代 ”。 

只 有 在 求 值 时 才 会 真正 查询 数据 库 。 换 名 话说 ，QuerySet 可 以 进行 任何 操作 ， 但 并 没有 
接触 到 数据 。 若 想 了 解 QuerySet 在 什么 时 候 求 值 ， 可 以 查看 官方 文档 : http//docs. 
djangoproject.com/en/dev/ref/models/querysets/。 

结束 了 背景 知识 的 介绍 。 现 在 可 以 简单 地 告诉 读者 ， 只 须 在 调用 order_by0 方 法 时 提供 
一 个 排序 参数 即 可 。 在 这 里 ， 需 要 新 的 博文 排 在 前 面 ， 这 意味 着 是 根据 时 间 惟 逆序 排列 。 只 
须 将 查询 语句 改 成 以 下 形式 。 

























































































































































































i 
























































































































































































































































































































































































































































NS 








第 11 章 Web 框架 : Django 419 





posts = BlogPost.objects.all().order by('-timestamp') 


f£ timestamp 前 面 加 上 减 号 (-)， 就 可 以 指定 按时 间 逆 序 排列 。 对 于 正常 的 升序 排列 ， 只 


RERS 









































为 了 测试 能 获取 最 前 面 的 10 篇 博文 ， 需 要 数据 库 中 有 更 多 的 文章 。 所 以 这 里 在 Django 














shell 中 直接 执行 几 行 代码 〈 使 用 普通 





动 生成 一 堆 记 录 。 





$ ./manage.py shell --plain 


Python 2.7.1 (r271:86882M, Nov 30 2010, 

















的 shell， 没 有 使 月 





[GCC 4.0.1 (Apple Inc. build 5494)] on darwin 


Type "help", "copyright", 


(InteractiveConsole) 


H IPython 或 bpython)， 在 数据 库 中 上 自 





09:392 13) 


"credits" or "license" for more information. 


>>> from datetime import datetime as dt 


>>> from blog.models import BlogPost 


>>> for i in range(10): 


bp = BlogPost(title-'post #%d' $ i, 


body='body of post #%d' $ i, timestamp-dt.now()) 


bp.save() 

















图 11-16 显示 了 刷新 后 浏览 器 中 的 改动 。 


shell 还 可 用 于 测试 刚刚 做 的 改动 ， 以 及 进行 新 的 查询 。 





>>> posts = BlogPost.objects.all().order by('-timestamp') 


>>> for p in posts: 


print p.timestamp.ctime(), p.title 














Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Fri Dec 17 15:59:37 20 
Mon Dec 13 00:13:01 20 
Sat Dec 11 16:38:37 20 
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t #0 


t admin entry 





t cmd-line entry 
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eoo 





_/ [jlocalhost:8000/blog/ ERU | 
L1 

€ > C fi © locathost:s000/01... vy | BD GJ A | 
test cmd-line entry | 


Dec. 11,2010, 4:38 p.m. 


you, my Ist blog post... it's even multilined! 


test admin entry 


Dec. 13, 2010, 12:13 a.m. 


this blog entry was created using Django's cool admin 
app! 


post #0 


Dec. 17, 2010, 3:59 p.m. 
body of post #0 


post #1 


Dec. 17, 2010, 3:59 p.m. 


A 
* 








body of post #1 








图 11-16 原先 的 两 篇 文章 外 加 10 篇 刚 添 加 的 文章 


























这 样 在 某 种 程度 上 可 以 确认 在 向 视图 函数 添加 新 的 内 容 时 ， 这 些 内 容 可 以 立即 使 用 。 
另外 ， 可 以 用 Python 友好 的 切片 语法 〈[:10]) 来 只 显示 10 篇 文章 ， 所 以 把 这 个 功能 
添加 上 。 对 blog/views.py 文件 应 用 这 些 更 改 ， 结 果 如 下 所 示 。 


# views.py 




















from django.shortcuts import render to response 
from blog.models import BlogPost 


def archive (request): 
posts = BlogPost.objects.all().order by('-timestamp')[:10] 
return render to response('archive.html', ('posts': posts]) 


保存 文件 ， 再 次 刷新 浏览 器 。 应 该 可 以 看 到 两 处 改动 ,一 是 博客 文章 按照 时 间 逆 序 排 
列 ， 二 是 总 共有 12 篇 文章 , 但 只 显示 最 新 的 10 篇 ， 最 初 的 两 篇 文章 已 经 看 不 到 了 ， 如 图 
11-17 所 示 。 

改变 查询 方式 非常 直接 ， 但 对 于 这 个 特定 的 情况 ， 在 模型 中 设置 默认 的 顺序 是 更 加 符合 
逻辑 的 ， 因 为 按照 时 间 顺 序 显示 最 新 的 V 篇 文章 是 博客 中 唯一 符合 逻辑 的 排序 方式 。 
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CE ocathostso00rbiog [BOO T ociostao00/og/ x Ej 
€ > Q fi © localhost:8000/b! € > Q FF © localhost:8000/b1... yy 33 Hy A 
post #3 i 


post #9 


Dec. 17, 2010, 3:59 p.m. 


Dec. 17,2010, 3:59 p.m. 





body of #3 
body of post #9 pe 

post #2 
post #8 

Dec. 17, 2010, 3:59 p.m. 
Dec. 17, 2010, 3:59 p.m. 

body of post #2 
body of post #8 

post #1 
post #7 

Dec. 17, 2010, 3:59 p.m. 
Dec. 17, 2010, 3:59 p.m. 

body of post #1 
body of post #7 

post #0 
post #6 

Dec. 17, 2010, 3:59 p.m. 
Dec. 17, 2010, 3:59 p.m. - 

: body of post #0 : 





body of post #6 














图 11-17 只 显示 了 最 新 的 10 篇 博客 文章 


设置 模型 的 默认 排序 方式 


如 果 在 模型 中 设置 首选 的 排序 方式 , 其 他 基于 Django 的 应 用 或 访问 这 个 数据 的 项 目 也 会 
使 用 这 个 顺序 。 为 了 给 模型 设置 默认 顺序 ， 需 要 创建 一 个 名 为 Meta 的 内 部 类 ， 在 其 中 设置 
一 个 名 为 ordering 的 属性 。 


class Meta: 

















ordering = ('-timestamp', ) 


最 有 效 的 方式 是 将 order_by(-timestamp) 从 查询 移动 到 模型 中 。 对 两 个 文件 都 做 修改 ， 最 
后 结果 应 该 如 下 所 示 。 


# models.py 











from django.db import models 


class BlogPost (models.Model): 
title = models.CharField (max length-150) 
body = models.TextField() 
timestamp = models.DateTimeField() 
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class Meta: 


ordering = ('-timestamp',) 


# views.py 
from django.shortcuts import render to response 
from blog.models import BlogPost 


def archive (request): 
posts - BlogPost.objects.all()[:10] 
return render to response('archive.html', ('posts': posts]) 


核心 提示 (黑客 园地 ); 将 orchivel 精 简 为 单行 较 长 的 Python 代码 
使 用 lambda 可 以 将 archiveO 压 缩 成 单行 。 


archive = lambda req: render to response('archive.html', 
('posts': BlogPost.objects.all()[:10])) 

Python 风格 代码 的 标志 之 一 就 是 可 读 性 。 而 富有 表现 力 的 语言 ， 如 Python， 就 是 为 
了 在 降低 代码 量 的 同时 保留 可 读 性 。 尽 管 在 这 里 降低 了 代码 行 数 ， 但 也 降低 了 可 读 性 。 因 
此 ， 将 其 放 在 黑客 园地 (Hacker's Corner) 中 。 

另 一 处 与 原先 不 同 的 地 方 是 ，request 变量 精简 成 了 req， 同 时 由 于 没有 posts € €. 
从 而 节省 了 一 丁点 内 存 。 如 果 读 者 刚 接 触 Python， 建 议 阅 读 Core Python Programming 或 
Core Python Language Fundamentals 一 书 的 “函数 ”章节 ， 其 中 介绍 了 lambda. 


此 时 刷新 浏览 器 ， 会 发 现 没 有 任何 改动 ， 这 也 是 计划 内 的 。 现 在 花 点 时 间 来 改进 从 数据 
库 中 提取 数据 的 过 程 ， 建 议 减 少 与 数据 库 的 交互 。 


11.11 ”处理 用 户 输入 


现在 应 用 已 经 完成 了 。 可 以 通过 shell 或 admin 来 添加 博文 。 可 以 通过 面向 用 户 的 演示 功 
能 查看 数据 。 那 么 真 的 已 经 完成 了 吗 ? 还 早 呢 ! 
也 许 读者 满足 于 通过 shell 或 更 友好 的 admin 来 创建 对 象 , 但 用 户 可 能 不 了 解 Python shell, 
更 加 不 知道 如 何 使 用 它 ， 而 且 真 的 会 让 用 户 访问 项 目的 admin 应 用 吗 ? 不 可 能 ! 
如 果 读 者 深入 理解 了 第 10 章 的 内 容 , 以 及 本 章 目 前 学 到 的 内 容 。 可 能 会 聪明 地 意识 到 这 
同样 是 一 个 三 步 流 程 。 

。 添加 一 个 HTML 表单 ， 让 用 户 可 以 输入 数据 。 

e 插入 (URL, WED 这 样 的 URLconf 项 。 

。 创建 视图 来 处 理 用 户 输入 。 

这 里 将 逐步 介绍 这 三 步 ， 就 如 同 之 前 的 一 样 。 
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11.11.1 模板 : 添加 HTML 表单 


第 一 步 很 简单 : 为 用 户 创建 表单 。 为 了 简化 开发 流程 ， 现 在 只 将 下 面 的 HTML 代码 添加 
到 blog/templates/archive.html 的 顶部 (在 BlogPost 对 象 之 前 ), 后 面 会 将 其 分 离 到 其 他 文件 中 。 
















































































<!-- archive.html --» 

«form action="/blog/create/" method="post"> 
Title: 
<input type=text name=title><br> 
Body: 


<textarea name=body rows=3 cols=60></textarea><br> 
<input type=submit> 

</form> 

<hr> 


{% for post in posts %} 























j 户 的 输入 和 





Sm 




















在 开发 时 将 这 些 内 容 放置 在 同一 个 模板 中 是 因为 可 以 在 同一 个 页 面 上 显示 
博文 。 换 句 话 说， 无 须 在 不 同 的 表单 项 页 面 和 BlogPost 列表 显示 之 间 来 回 切换 。 


11.11.2 添加 URLconf 项 

下 一 步 是 添加 URLconf 项 。 使 用 前 面 的 HTML， 需 要 用 到 /blog/create/ 的 路 径 ， 所 以 需要 
将 其 关联 到 一 个 视图 函数 中 ， 该 函数 用 于 把 内 容 保 存 到 数据 库 中 。 将 这 个 函数 命名 为 
create_blogpost()， 问 应 用 URLconf 的 urlpatterns 变量 中 添加 一 个 二 元 组 ， 如 下 所 示 。 















































































































































# urls.py 
from django.conf.urls.defaults import * 


urlpatterns = patterns('blog.views', 
(r'^$', 'archive'), 
(r'^create/', 'create blogpost'), 
) 


剩 下 的 任务 是 添加 create. blogpostO MARIE - 


11.11.3 WA: 处 理 用 户 输入 

在 Django 中 处 理 Web 表单 ， 与 第 10 章 中 看 到 的 处 理 通用 网 关 接口 《CGI) 变量 非常 相 
似 。 只 须 在 Django 中 完成 等 价 的 步骤 即 可 。 其 实 阅读 Django 的 文档 就 能 明白 应 该 向 
blog/views.py 添加 哪些 内 容 。 首 先 需要 新 的 导入 语句 ， 如 下 所 示 。 


from datetime import datetime 
from django.http import HttpResponseRedirect 
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实际 的 视图 函数 如 下 所 示 。 


def create blogpost (request): 
if request.method -- 'POST': 

BlogPost( 
title=request.POST.get('title'), 
body=request.POST.get ('body'), 
timestamp-datetime.now(), 

).save() 

return HttpResponseRedirect('/blog/') 


与 archiveO 函 数 相似 , 请 求 会 自动 传 入 。 因 为 表单 的 输入 通过 POST 传 入 ,所 以 需要 检查 POST 
请 求 。 接 下 来 ， 创 建新 的 BlogPost 项 ， 其 中 含有 表单 数据 并 用 当前 的 时 间作 为 时 间 戳 。 最 后 保 
存 到 数据 库 中 。 此 时 重 定向 回 /blog, 查看 最 新 的 博文 (顶部 也 会 显示 用 于 下 一 篇 博文 的 空白 表单 )。 

同样 ,再 次 检查 开发 或 实际 的 Web 服务器， 访问 应 用 的 页 面 。 会 发 现 博客 数据 的 上 方 会 
显示 表单 〈 见 图 11-18)， 可 以 测试 驱动 新 的 特性 。 
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o 
e 9 / |, ]localhost:.8000/blog/ 


e 








" 
€ > Q ff © localhost:8000/blog/ 5384 


Title: first from user form () 


posting not from shell nor admin! 








Body: 


( Submit ) 


post #9 


Dec. 17, 2010, 3:59 p.m. 
body of post #9 
X 


nost 如- 
图 11-18 第 一 个 用 户 表单 (后 面 跟 有 已 有 的 博文 ) 
11.11.4 ” 跨 站 点 请 求 伪造 

如 果 能 够 调试 应 用 , 获得 一 个 表单 并 提交 , 会 看 到 浏览 器 尝试 访问 /blog/create/ 这 个 URL, 
但 会 出 现 图 11-19 中 显示 的 错误 并 停止 。(Django 有 数据 保留 特性 。 这 不 允许 不 安全 的 POST 
通过 跨 站 点 请 求 伪造 (Cross-Site Request Forgery, CSRF) 来 进行 攻击 ， 对 CSRE 的 解释 超出 
了 本 书 的 范畴 ， 但 读者 可 以 通过 下 面 的 链接 进行 了 解 。 


e http://docs.djangoproject.com/en/dev/intro/tutorial04/#write-a-simple-form 





























































































































e  http:;//docs.djangoproject.com/en/dev/ref/contrib/csrf/ 
对 于 这 个 简单 的 应 用 , 需要 修改 两 个 地 方 , 这 两 处 都 需要 向 已 有 的 代码 中 添加 一 些 代码 。 
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1. 向 表单 中 添加 CSRF 标记 〈{% csrf. token %})， 让 这 些 POST 回 到 对 应 的 页 面 。 
2. 通过 模板 发 送 向 这 些 标 记 请 求 的 上 下 文 实 例 。 








eoo 





y 站 403 Forbidden * Wool 
jé > Q fi © localhost:8000/blog/create/ i 习 四 3 
Forbidden (402) 
CSRF verification failed. Request aborted. 
Help 


Reason given for failure: 
CSRF token missing or incorrect. 


In pees oe this can occur when there is a genuine Cross Site Request Forgery, or 
when Django's CSRF mechanism has not been used correctly. For POST forms, you 
need to ensure: 


* The view function uses RequestContext for the template, instead 
of context. 

* Inthe template, there is a {% csrf token $) template tag inside 
each POST form that targets an internal URL. 

* If you are not using Csr£ViewMiddleware, then you must use 
csrf protect on any views that use the csrf token template 
tag, as well as those that accept the POST data. 


You're seeing the help section of this page because you have DEBUG = True in your 
Django settings file. Change that to False, and only the initial error message will be 
displayed. 


You can customize this page using the CSRF FAILURE VIEW setting. 








s 


11-19 CSRF 错误 页 面 




















请 求 上 下 文 实际 上 是 一 个 字典 ， 它 含有 关于 请 求 的 信息 。 如 果 阅 读 上 面 提供 的 CSRF X: 


档 页 面 ， 会 发 现 django.template.RequestContext 总 是 通 
通过 向 表单 添加 标记 已 经 完成 了 第 一 步 。 编 辑 mysite/blog/templates/archive.html 中 的 








<FORM> 标 题 行 ， 














在 表单 中 添加 CSRF 标记 ， 如 下 所 示 。 


«form action="/blog/create/" method=post>{% csrf token $) 





RequestContext 实例 ， 如 下 所 示 。 


return render to response('archive.html', {'posts': posts,], 


RequestContext (request)) 


ANE SS UA? AX django.template.RequestContext. 


from django.template import RequestContext 


保存 这 些 更 改 后 ， 就 可 以 从 表单 





BlogPost 的 过 程 中 不 会 再 出 现 CSRF 错误 。 


前 过 含有 内 置 的 CSRF 保护 进行 处 理 。 


第 二 部 分 涉及 编辑 mysite/blog/views.py。 修 改 archive.) MAAC return 一 行 ， 添 加 


《而 不 是 admin 或 shell) 中 向 应 用 提交 数据 。 提 交 新 的 
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11.12 ”表单 和 模型 表单 


在 前 一 节 中 ,通过 显示 创建 HTML 表单 的 步骤 演示 了 如 何 处 理 用 户 的 输入 。 现 在 将 展示 
Django 如 何 简化 接受 用 户 数据 (Django 表单 ) 的 工作 ， 特 别 是 含有 组 成 数据 模型 的 表单 
(Django 模型 表单 )。 


11.12.1 Django 表单 简介 


除了 需要 处 理 CSRF 这 样 的 一 次 性 工作 之 外 ， 前 面 集成 进 简单 输入 表单 的 三 步 工作 看 起 
来 就 太 费 力 且 重复 了 。 毕 竟 ， 这 是 用 的 是 严格 遵循 DRY 原则 的 Django. 
应 用 中 最 有 可 能 重复 的 部 分 是 数据 模型 嵌入 到 其 他 地 方 的 时 候 。 在 表单 中 可 以 见 到 这 样 
的 名 称 和 标题 。 


Title: «input type-text name-title»«br» 









































































































































































































































Body: «textarea name-body rows-3 cols=60></textarea><br> 


在 create_blogpostO0 视 图 中 ， 可 以 见 到 同样 的 内 容 。 


BlogPost ( 
title=request.POST.get('title'), 
body=request.POST.get ('body'), 
timestamp=datetime.now(), 





).save() 
关键 是 在 定义 数据 模型 后 ， 应 该 只 有 一 个 地 方 能 见 到 title, body, LAA timestamp〔 尽 管 最 后 一 
个 有 点 特殊 ， 因 为 不 要 求 用 户 输入 这 个 值 )。 单 独 基于 数据 模型 ， 直 接 希 望 Web 框架 带 有 表单 的 字 
段 不 是 很 简单 吗 ? 为 什么 开发 者 必须 要 向 数据 模型 添加 这 些 额 外 内 容 ” Django 表单 就 用 上 派 场 了 。 
首先 ， 为 输入 数据 创建 一 个 Django 表单 。 


from django import forms 














































































































class BlogPostForm(forms.Form): 
title = forms.CharField (max length-150) 
body = forms.CharField (widget-forms.Textarea) 
timestamp = forms.DateTimeField() 


这 样 还 没有 完全 完成 。 在 HTML 表单 中 ， 指 定 了 HTML 文本 区 域 元 素 含 有 三 行 ，60 个 
字符 宽 。 由 于 这 里 通过 二 编写 代码 自动 生成 HTML. 代码 蔡 换 原始 的 HTML 代码 ， 因 此 需要 找 
到 一 种 方法 来 指定 这 些 需求 。 在 这 里 ， 方 法 是 直接 传递 这 些 属性 ， 如 下 所 示 。 


body = forms.CharField( 
widget-forms.Textarea(attrs-('rows':3, 'cols':60]) 



























































) 
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11.12.2 ”模型 表单 示例 


除了 指定 属性 这 个 小 变化 之 外 ， 读者 是 否 仔细 查看 了 BlogPostForm 的 定义 ? 其 中 是 不 是 
EE A 下 面 可 以 看 出 ， 它 与 这 个 属性 模型 非常 相似 。 


class BlogPost (models.Model): 
title = models.CharField (max length-150) 
body = models.TextField() 
timestamp = models.DateTimeField() 


你 是 对 的 ,它们 看 起 来 就 像 是 双胞胎 一 样 。 对 于 任何 Django 脚本 来 说 ,这样 的 重复 显得 
有 点 太 多 了 。 前 面 创建 独立 的 Form 对 象 没什么 问题 ， 因 为 这 是 为 Web 页 面 从 零 创建 表单 ， 
没有 使 用 数据 模型 。 

但 如 果 表 单字 段 完 全 匹配 一 个 数据 模型 ， 则 一 个 Form 就 不 是 想 要 的 ， 可 以 通过 Django 
ModelForm 更 好 地 完成 任务 ， 如 下 所 示 。 


class BlogPostForm(forms.ModelForm): 












































































































































class Meta: 
model - BlogPost 


好 多 了 ， 这 是 想 要 的 最 懒 的 方法 。 通 过 从 Form 换 到 ModelForm， 可 以 定义 一 个 Meta 2S, "t 
表示 这 个 表单 基于 哪个 数据 模型 。 当 生成 HIML 表单 时 , 会 含有 对 应 数据 模型 中 的 所 有 属性 字段 。 

在 这 个 例子 中 ， 不 信赖 用 户 输入 正确 的 时 间 惟 ， 而 是 想 让 应 用 为 每 篇 博文 以 可 编程 的 方 
式 添加 这 个 内 容 。 这 一 点 不 难 ， 只 须 添加 额外 一 个 名 为 exclude 的 属性 ， 从 生成 的 HTML 中 
移 除 这 个 表单 项 。 癌 blog/models.py 文件 中 添加 相应 的 导入 语句 , 并 在 该 文件 的 底部 , BlogPost 
定义 的 后 面 添加 完整 的 BlogPostForm 类 。 


# blog/models.py 
from django.db import models 







































































































































































from django import forms 


class BlogPost (models.Model): 


class BlogPostForm(forms.ModelForm): 
class Meta: 
model - BlogPost 
exclude = ('timestamp',) 


11.12.3 使 用 ModelForm 来 生成 HTML 表单 


这 个 有 什么 用 ? 其实， 现在 只 能 从 表单 中 取出 这 些 字段 。 所 以 将 mysite/blog/templates/ 
archive.html 顶部 的 代码 修改 为 下 面 这 样 。 


«form action="/blog/create/" method=post>{% csrf token %} 
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< 七 ab 
«inp 


«/form» 























le>{{ form }}</table><br> 
ut type=submit> 
































创建 一 个 BlogPostForm 实例 ， 进 行 一 些 处 理 ， 如 下 所 示 。 


>>> from blog.models import BlogPostForm 


>>> form = BlogPostForm() 


>>> form 
<blog.models.BlogPostForm object at 0x12d32d0» 


>>> str 


(form) 


"<tr><th><label for="id_title">Title:</label></th><td><input 
id="id_title" type="text" name-"title" maxlength="150" /></td></ 
tr>\n<tr><th><label for="id_body">Body:</label></th><td><tex 
id="id_body" rows="10" cols="40" name="body"></textarea></td></tr>' 












































可 以 暂时 注释 掉 









































这 里 需要 保留 提交 按钮 。 同 时 表单 内 部 还 含有 一 个 表格 。 不 信 ， 只 须 在 Django shell ' 














tarea 


开发 者 无 须 编写 这 些 HTML (同样 ，exclude 字段 去 除了 表单 中 的 timestamp。 为 了 测试 ， 
前 面 的 exclude 字段 ， 这 样 生 成 的 HTML 中 也 会 有 额外 的 timestamp 字段 )。 





如 果 不 想 用 HTML 表格 的 行 和 列 的 形式 输入 ， 也 可 以 通过 as_*0 方 法 输出 。 如 











{{ form.as_p }} 会 以 <p>...</p> 分 割 文本 ，{{ form.as_ul pA Ali> y 

















URLconf 保持 不 变 ， 所 以 最 后 一 个 所 需 的 改动 是 更 新 视图 函数 ,4 
一 点 ， 需 要 实例 化 它 并 作为 上 下 文字 典 中 额外 的 键 值 对 传递 它 。 所 以 改变 


板 。 为 了 做 到 这 
blog/views.py 中 


return 








archiveO 的 最 后 一 行 ， 如 下 所 示 。 


render to response('archive.html', 'posts': posts, 


'form': BlogPostForm()}, RequestContext (request)) 


不 要 忘记 在 


from bl 





views.py 的 起 始 处 添加 对 数据 和 表单 模型 的 导入 。 


og.models import BlogPost, BlogPostForm 


11.12.4 ”处理 ModelForm 数据 
刚刚 做 的 改动 创建 了 ModelForm， 并 让 其 生成 向 用 户 展示 的 HTML。 那 么 用 户 提交 相关 



































| 表 元 素 显 示 ， 等 等 。 


年 ModelForm 发 送 至 模 











音 息 后 会 发 生 什 么 ? 在 blog/views.py 中 的 create_blogpost0 视 图 中 依然 会 看 到 重复 的 内 容 , 在 

















BlogPostForm ! 

















的 处 理 方法 与 之 类 似 ， 








， 定 义 Meta 类 来 让 其 获取 ModelForm 中 的 字段 。 这 上 





无 须 像 下 面 这 样 在 create_blogpost0 中 创建 对 象 。 














def create blogpost (request): 
if request.method -- 'POST': 
BlogPost( 


title=request.POST.get('title'), 

body=request.POST.get ('body'), 

timestamp-datetime.now(), 
).save() 


return HttpResponseRedirect ('/blog/') 


无 须 提 及 title、body 55, 


def create blogpost (request): 





if request.method -- 'POST': 
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form - BlogPostForm(request.POST) 


if form.is valid(): 
form.save() 


return HttpResponseRedirect ('/blog/') 





















































因为 有 timestamp， 所 以 不 能 这 样 做 。 必 须 
行 特殊 处 理 ， 所 以 需要 像 下 面 这 样 ， 使 用 让 语句。 
if form.is valid(): 
post = form.save (commit-False) 
post.timestamp-datetime.now() 


读者 可 以 看 到 ， IRSE UR 
表单 的 save0， 不 是 模型 的 save), XX 
此 在 调用 post.save0 之 前 不 会 保存 数据 。 








post.save() 





BOLON i nap:i/locsibost:t000/blog; > ed 
€ > C fF © locathost:8000/b1... 7| 38 A a 
| 





Title: wow, a ModelForm! 





this form vns automatically generated for your 
convenience: 


Body: 


( Submit ) 


first from user form 


Dec. 19, 2010, 4:33 p.m. 
posting not from shell nor admin! 


post #9 











图 11-20 自动 














11.13 ”视图 进 阶 





这 个 save0 返 加 Blog 模型 的 实例 ， 但 
这 些 改动 生效 后 就 可 以 正常 使 用 表单 ， 如 图 


E—M 


























eoo 


| []localhost-8000/blog/ 





3a 


€ > Œ fi © localhost:8000/blog/ yy 
Title: 

Body: 

Submit ) 

wow, a ModelForm! 


Dec. 19, 2010, 4:55 p.m. 


this form was automatically generated for your convenience! 


first from user form : 


* 





| Doc..19..2010.4:33.0.0 J 
生成 的 用 





户 表单 











因为 这 些 已 经 在 数据 模型 中 了 。 可 以 用 下 面 这 种 更 简短 的 方式 。 


对 前 面 的 HTML 表单 生成 过 程 进 





戳 ， 然 后 手动 保存 对 象 来 获得 想 要 的 结果 。 注 意 ， 这 是 
由 于 commit=False, [A 





11-20 所 示 。 











最 后 讨论 其 他 Django 书籍 不 会 介绍 的 重要 内 容 ， 即 通用 视图 。 目 前 为 止 ， 当 应 用 需要 控 
制 器 或 逻辑 时 ， 会 创建 自 定 义 视图 。 但 Django 严格 遵循 DRY 原则 ， 因 此 会 使 用 类 似 








render to_responseO 这 样 的 快捷 方式 。 
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通用 视图 非常 强大 ， 也 很 抽象 ， 使 用 通用 视图 后 ， 就 无 须 编写 任何 视图 。 只 须 将 其 连接 
到 URLconf 中 ， 传 递 一 些 所 需 的 数据 ， 甚 至 无 须 在 views.py 中 编辑 /创建 任何 代码 。 只 须 给 
予 读 者 足够 的 背景 知识 就 可 以 让 读者 使 用 通用 视图 了 。 首 先 回 到 前 面 关于 CSRF 的 简短 介绍 
中 ， 但 不 会 真正 讨论 它 。 这 意味 着 什么 呢 ? 


11.13.1 半 通 用 视图 


由 于 应 用 必须 警惕 发 送 过 来 的 CSRF， 因 此 前 面 发 送 请 求 上 下 文 的 实例 非常 咖 味 。 同 时 
它 对 初学 者 也 很 不 人 性 化 。 因 此 这 里 开始 接触 通用 视图 ， 而 不 必 实 际 上 这 样 使 用 它 。 首 先 修 
改 自 定 义 视图 ， 使 用 通用 视图 来 完成 主要 工作 。 这 种 方式 称 为 半 通 用 视图 。 

使 用 编辑 器 打开 mysite/blog/views.py， 用 下 面 的 代码 替换 掉 archiveO0 中 的 最 后 一 行 。 



























































































































































































































































return render to response('archive.html', {'posts': posts, 


'form': BlogPostForm()}, RequestContext (request)) 


添加 下 面 新 的 导入 语句 ， 移 除 的 render to_response0 导 入 语句 。 





from django.views.generic.simple import direct to template 
ELLE .M 一 
修改 最 后 一 行 。 


return direct to template(request, 'archive.html', 
('posts': posts, 'form': BlogPostForm()]) 

等 一 下 ， 这 些 是 干什么 的 ? Django 通过 减少 需要 编写 的 代码 量 来 简化 工作 ， 但 这 里 仅 
删除 了 请 求 上 下 文 的 实例 。 还 有 其 他 用 途 吗 ? 目前 没有 。 这 里 只 是 为 后 续 做 准备 。 因 为 这 个 
例子 中 目前 没 真 正 使 用 direct to_template0 作 为 通用 视图 ,并且 由 于 使 用 的 是 自 定义 视图 , 所 
以 将 其 转换 成 半 通 用 视图 。 
另外 ， 纯 通用 视图 意味 着 需要 从 URL-conf 中 直接 调用 它 ， 无 需 viewpy 中 的 任何 代码 。 
通用 视图 是 一 些 经 常会 重用 的 基本 功能 ， 但 依然 不 希望 每 次 需要 相同 功能 的 时 候 就 重新 创建 


一 个 。 例 如 ， 将 用 户 重 定向 到 静态 页 面 、 为 对 象 提 供 泛 型 输出 等 。 
真正 使 用 通用 视图 


尽管 在 前 面 的 小 节 中 部 署 了 通用 视图 函数 ， 但 没有 将 其 真正 作为 纯 通 用 视图 使 用 。 现 在 
真正 地 使 用 通用 视图 。 找 到 项 目的 URLconf (mysite/urls.py)。 还 记得 11.8.2 节 中 访问 
http://localhost:8000/ 时 出 现 的 404 错误 吗 ? 

在 那里 解释 了 Django 只 能 处 理 匹 配 正则 表达 式 的 路 径 。“/” 无 波 L 配 “/blog ”和 “/admin/”， 
所 以 强迫 用 户 在 应 用 中 仅 访 问 这 些 链接 。 这 样 无 法 让 用 户 方便 地 访问 顶层 的 “/” 路 径 ， 也 无 
法 让 应 用 自动 重 定向 到 “/blog”。 















































































































































































































































































































































































































































































































































































































































这 时 就 能 完美 地 体现 出 redirect_to0 通 用 视 


行 代码 ， 如 下 所 示 。 


urlpatterns = patterns('', 
(r'^$', 


('url': '/blog/']), 











(r'^blog/', include('blog.urls')), 


图 的 月 


(r'^admin/', include(admin.site.urls)), 


) 























'django.views.generic.simple.redirect to', 
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有 途 。 所 要 做 的 就 是 疝 urlpatterns 添加 一 













































































其 实 是 两 行 ， 但 这 是 一 行 语句 。 同 时 ， 因 为 这 里 使 用 的 是 字符 串 ， 而 不 是 对 象 ， 所 以 无 

需 其 他 导入 语句 。 现 在 当 用 户 访问 “/” 时 ， 会 重 定向 到 “/blog/” 这 与 目标 一 致 。 无 须 修 改 

viewpy， 所 要 做 的 仅仅 是 在 项 目 或 应 用 的 URLconf 文件 中 调用 这 个 。 这 就 是 通用 视图 (如果 
读者 想 了 解 更 多 的 内 容 ， 本 章 末 尾 会 有 更 复杂 的 通用 视图 的 练习 )。 

目前 为 止 ， 已 经 介绍 了 direct to_template0 和 redirect. to0 通 用 视图 ， 但 还 有 其 他 会 经 常 

到 的 通用 视图 。 其 中 包括 object_list0 和 object_detail0， 同 时 还 有 面向 时 间 的 通用 视图 ， 如 




































































archive (day, week, month, year, today, index}(). 最后， 还 有 


update, delete) object. 


最 后 要 提醒 的 是 ， 在 Django 1.3 中 引入 了 基于 类 的 通用 视图 ， 这 也 是 将 来 的 趋势 。 
会 使 其 更 加 强大 〈 这 就 如 同 从 Python 1.5 4 






















































































视图 非常 强大 ， 将 其 转换 成 基于 类 的 通用 视图 会 使 
基于 普通 字符 串 的 异常 转变 成 基于 类 的 异常 )。 
关于 通用 视图 和 基于 类 的 通用 视图 的 更 多 信息 ， 



























































用 于 CRUD 的 通用 
























































图 , W (create, 


m 


通用 























J 以 参见 http://docs.django-project.com/en/dev/ 


topics/generic-views/ 和 http://docs.djangoproject.com/en/ dev/topics/class-based-views 中 的 官方 文档 。 


























RIT 
学 习 其 他 内 容 ， 可 以 跳 过 这 些 中 级 的 





11.14 * 改 善 外 观 














从 这 里 开始 ， 通 过 以 下 措施 改善 应 用 的 工作 方式 并 让 站 点 











1. 创建 CSS 文件 。 
2. 创建 基 模 板 ， 并 使 
CSS 很 简单 ， 所 以 这 里 不 会 介 















































的 章节 不 是 很 重要 ， 但 仍然 含有 一 些 非常 有 
Django 应 用 ， 

















的 信息 ， 可 以 稍 
































模板 继承 。 














直接 阅读 第 12 章 。 


























， 但 了 解 一 下 模板 继承 的 简短 例子 。 





<!-- base.html --» 


Generic welcome to your web page [Login - Help - FAQ] 


«hl»Blog Central</h1> 
($ block content %} 


($ endblock $) 


后 阅读 。 如 果 想 继续 


有 更 一 致 的 外 观 。 
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这 样 


&copy; 


</body> 
</html> 


并 不 很 高 大 | 





上 ， 但 的 确 能 达到 目的 。 这 段 代 码 将 





/ 签 出 ， 以 及 其 他 链接 等 ， 放 在 页 面 顶 部 。 


要 的 是 代码 中 间 部 分 的 {% block ...% ER o 





为 了 


如 果 想 让 面向 月 











使 

















这 个 新 的 基 模 板 ， 必 须 对 寺 
Hf] blog 应 月 




















2011 your company [About - Contact] 








免 与 archive.html 混淆 ， 一 般 将 其 命名 为 index.html. 











其 





«!-- index.html --» 


($ extends "base.html" %} 


($ block content %} 


($ for post in posts $) 
<h2>{{ post.title }}</h2> 
<p>{{ post.timestamp }}</p> 
<p>{{ post.body }}</p> 


<hr> 


{% endfor %} 


($ endblock %} 


; (96 extends .. 


命名 区 域 插入 base.html 中 对 应 的 区 域 中 。 如 果 需 要 使 月 














作为 模板 文件 ， 而 不 是 原先 的 archive.html。 
* 单 元 测试 


测试 是 所 有 开发 者 必须 


11.15 


写 测 试 。 如 同 编程 的 许 
能 。 Django 还 可 


文档 页 面 的 测 























创建 测试 。 








创建 单元 测试 比较 简 生 








要 做 的 内 容 。 








pals 





试 部 分 了 解 相 关内 容 ， 




















} 


























多 方面 ，Django 
以 测试 文档 








PS Ae oH 


开发 者 需要 吃饭 、 
通过 扩展 Python 




















常见 的 标题 资源 ， 如 公司 logo、 签 入 
而 在 底部 ， 会 有 如 版 权 信 息 、 其 他 链接 等 。 但 这 里 

这 个 标签 定义 了 一 个 由 子 模板 控制 的 命名 区 域 。 
其 进行 扩展 并 定义 由 这 个 基 模 板 控制 的 区 域 。 例 如 
日 页 面 使 用 该 模板 ， 只 须 添加 相应 的 样板 文件 就 可 以 了 。 为 了 避 














重 








Imi 























209 





.%} 标 签 让 Django 查找 名 为 base.html 的 模板 ， 并 将 该 模板 中 的 任何 
模板 继承 ， 要 确保 视图 用 index.html 























睡觉 ， 还 要 为 自己 开发 的 程序 编 





























自 带 的 单元 测试 模块 来 提供 测试 功 


字符 串 ( 即 docstring), 这 称 为 文档 测试 (doctest), ALL 在 Django 


所 以 这 里 就 没有 介 























。 在 创建 应 月 








。 相 比 而 言 ， 单 元 测试 更 重要 。 























HI, Django 通过 自 
示例 11-1 中 的 代码 蔡 换 掉 mysite/blog/tests.py。 


示例 11-1 blog 应 用 的 单元 测试 模块 (tests.py) 


l 
2 
3 
4 


# tests.py 


from datetime import datetime 
from django.test import TestCase 
from django.test.client import Client 

















动 生成 test.py 文件 来 促使 开发 者 


第 11 章 Web? 


from blog.models import BlogPost 


5 
6 
7 class BlogPostTest(TestCase): 
8 


def 


15 def 


19 def 


23 def 


27 def 


逐 行 解释 


第 1 一 5 行 





test obj create(self): 
BlogPost.objects.create(title-'raw title' 
body='raw body', timestamp=datetime. now()) 
self.assertEqual(1, BlogPost.objects.count()) 
self.assertEqual('raw title', 
BlogPost.objects.get(id-1).title) 


test home(self): 
response = self.client.get('/blog/') 
self.failUnlessEqual(response.status code, 200) 


test slash(self): 
response = self.client.get('/') 
self.assertIn(response.status code, (301, 302)) 


test empty create(self): 
response = self.client.get('/blog/create/') 
self.assertIn(response.status code, (301, 302)) 


test post create(self): 

response = self.client.post('/blog/create/', { 
'title': 'post title', 
'body': 'post body', 

D 

self.assertIn(response.status code, (301, 302)) 

self.assertEqual(1, BlogPost.objects.count()) 

self.assertEqual('post title', 
BlogPost.objects.get(id-1).title) 
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首先 导入 用 于 博客 时 间 惟 的 datetime， 接 着 是 主要 的 测试 类 django.test.TestCase， 然 后 是 
测试 Web 客户 端 django.test.client.Client， 最 后 是 BlogPost 类 。 


第 8 一 13 行 


测试 方法 必须 以 “test_” 开 头 , 方法 名 的 后 面部 分 可 以 随意 取 。 这 
方法 仅仅 通过 测试 确保 对 象 成 功 创建 ， 并 验证 


























里 的 test. obj. create() 


标题 的 内 容 。assertEqual0 方 法 中 ， 如 果 两 














个 参数 相等 则 测试 成 功 ， 否则 该 测试 失败 。 这 里 通过 assertEqualO 验 证 对 象 的 数目 (count) 
和 标题 〈title)。 这 是 非常 基本 的 测试 ， 可 以 在 此 基础 上 进行 更 复杂 的 测试 。 读 者 也 许 还 


想 测 试 ModelForm. 
第 15~21 4F 











接 下 来 的 两 个 测试 方法 检测 用 户 界 面 。 这 两 个 方法 生成 Web 调用 , 与 test_obj_create() 


仅仅 测试 对 象 的 创建 有 所 不 同 。test_home0O 方 法 在 “/blog/” 中 i 
































周 用 应 用 的 主页 面 ， 确 保 
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收 到 的 是 200 这 个 HTTP“ 错 误 ”。test_slash0 方 法 实际 上 与 之 相同 ， 但 确认 URLconf 使 
redirect_to0 通 用 视图 来 完成 重 定 向 工作 。 这 里 的 断言 稍微 有 所 不 同 ， 因 为 期 望 的 重 定 
响应 编码 是 301 或 302。 这 里 更 期 望 的 是 301, 但 就 如 同 assertIn0 测 试 方法 所 做 的 一 样 
如 果 是 302 也 不 要 报错 。 在 最 后 两 个 测试 方法 中 重用 了 这 个 断言 , 后 面 这 两 个 测试 方法 都 
NY IK IF] 302 响应 。 在 第 16 行 和 第 20 行 ,读者 可 能 会 奇怪 这 里 的 self.client 是 从 哪里 来 的 。 
如 果子 类 化 django.test.TestCase, 会 自动 免费 获得 一 个 Django 测试 客户 端的 实例 ， 并 直接 
使 用 self.client 来 引用 它 。 

第 23—35 行 

最 后 两 个 方法 都 测试 为 “/blog/create/” 生 成 的 视图 create_blogpost0 。 第 一 个 方法 是 
test_empty_create(), 测试 某 人 在 没有 任何 数据 就 错误 地 生成 GET 请 求 这 样 的 情形 。 代 码 应 该 
忽略 挤 这 个 请 求 ， 然 后 重 定向 到 “/blog”。 第 二 个 方法 test_post_createO0 模 拟 真 实用 户 请 求 通 
过 POST 发 送 真 实数 据 ， 创 建 博客 项 ， 然 后 将 用 户 重 定向 到 “/blog”。 这 里 对 三 个 内 容 进 行 断 
言 : 302 重 定向 、 添 加 新 博客 文章 ， 以 及 数据 验证 。 

现在 尝试 执行 下 面 的 命令 ， 并 观察 输出 内 容 。 































































































Go 
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$ manage.py test 
Creating test database 'default'... 


Ran 288 tests in 7.061s 


OK 

Destroying test database 'default'... 
默认 情况 下 ， 系 统 会 创建 独立 的 内 存 数据 库 〈 称 为 default) 来 进行 测试 ， 所 以 无 须 担 心 
测试 会 损坏 实际 生产 数据 。 其 中 的 每 个 点 表示 通过 了 一 个 测试 。 对 于 未 通过 的 测试 ,“E” 表 
zw. "BU RNAI. XT Django 测试 的 更 多 信息 ， 请 参考 http//docs. djangoproject. 
com/en/dev/topics/testing 中 的 官方 文档 。 


11.15.1 blog 应 用 的 代码 审查 


现在 同时 查看 应 用 最 终 版 本 的 代码 《以 及 空 的 _init py 和 示例 11-1 的 tests.py)。 这 
不 包含 代码 中 的 注释 ， 但 可 以 从 本 书 的 配套 网 站 上 下 载 简化 版 或 完整 版 的 代码 。 
首先 查看 示例 11-2 中 mysite/urls.py， 尽 管 这 个 项 目 级 别 的 URLconf 文件 并 不 是 博客 应 
正式 的 组 成 部 分 。 
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示例 11-2 mysite mA URLconf Curls.py) 
# urls.py 


I 
2 from django.conf.urls.defaults import * 
3 from django.contrib import admin 
4  admin.autodiscover() 
5 
6  urlpatterns = patterns('', 
7 (r'^$', 'django.views.generic.simple.redirect to', 
8 {'url': '/blog/'}), 
9 (r'^blog/', include('blog.urls')), 
10 (r'^admin/', include(admin.site.urls)), 
ll ) 
逐 行 解释 
第 1 一 4 行 


























这 里 为 项 目 URLconf 导入 相关 的 内 容 ， 以 及 一 些 启 用 admin 的 代码 。 并 不 是 所 有 的 应 用 
都 会 部 署 admin， 所 以 第 2 行 和 第 3 行 在 用 不 到 的 时 候 可 以 省 略 。 

第 6 一 11 行 

urlpatterns 指定 了 通用 视图 或 项 目 中 应 用 的 行为 和 指令 。 第 一 个 模式 针对 “/” 使 用 通用 
视图 redirect, to0 将 甚 重 定向 到 “/blog/” 的 处 理 程序 。 第 二 个 模式 针对 “/blog/” 将 所 有 请 求 
发 送 到 博客 应 用 的 URLconf《〈 后 面 会 介绍 )。 最 后 一 个 是 针对 admin 的 请 求 。 

下 一 个 要 看 的 文件 是 示例 11-3 的 mysite/blog/urls.py， 这 是 应 用 的 URLconf. 






















































































































































































— 











示例 11-3 blog 应 用 的 URLconf Curls.py) 




































































这 是 blog 应 用 的 URLconf 文件 ， 用 来 处 理 URL， 调 用 相应 的 视图 函数 或 class 方法 。 
1 # urls.py 
2 from django.conf.urls.defaults import * 
3 
4 urlpatterns = patterns('blog.views', 
5 (r'^$', 'archive'), 
6 (r'^create/', 'create blogpost'), 
7 
逐 行 解释 
第 4—14T 



































urls.py 的 核心 是 定义 了 URL 映射 ( 即 urlpatterns )。 当 用 户 访问 “/blog/” 时 ， 将 由 
blog.views.archiveO 处 理 它 们 。 记 住 ,“/blog” 已 经 由 项 目的 URLconf 裁剪 过 了 ， 所 以 这 里 的 
URL 路 径 只 是 “/”。 只 有 来 自 表 单 及 其 数据 的 POST 请 求 才 会 调用 “/blog/create/” 这 个 请 求 
由 blog.views.create_blogpostO 视 图 函数 处 理 。 
在 示例 11-4 F, 将 介绍 blog 应 用 的 数据 模型 , 即 mysite/blog/models.py。 其 中 还 含有 表单 类 。 
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类 


根据 这 个 字段 让 对 象 按时 间 逆 序 排列 《通过 Meta 这 个 内 部 类 完成 )。 





要 基于 的 数据 模型 ，Metaexclude 变量 表示 其 中 的 数据 字段 需要 从 自动 生成 的 表单 
发 者 在 将 BlogPost 实例 存 入 数据 库 之 前 填充 这 个 





AH; 





其 期 望 7 


Æ admin 月 


示例 11-4 blog 应 用 的 数据 和 表单 模型 文 











这 里 含有 数据 模型 ， 但 后 面 的 部 分 可 以 分 离 到 单独 的 文件 中 。 




















1 # models.py 
2 from django.db import models 
3 from django import forms 
4 
5 class BlogPost(models.Model): 
6 title = models.CharField(max 
7 body = models.TextField() 
8 timestamp - models.DateTimeF 
9 class Meta: 
10 ordering = ('-timestamp' 
11 
12 class BlogPostForm(forms .ModelFo 
13 class Meta: 
14 model - BlogPost 
15 exclude = ('timestamp',) 
逐 行 解释 
第 1~3 行 


ft (models.py) 





. length-150) 
ieldO 
)) 


rm): 
































导入 定义 模型 和 表单 所 需 的 类 。 这 里 由 于 应 用 比较 简单 ， 所 以 ) 
。 如 果 有 更 多 的 模型 和 1 或 表单 ， 则 需要 将 表单 分 离 到 单 儿 

















第 5 一 10 行 
这 里 定义 BlogPost 模型 。 它 包含 其 数据 属性 ， 


























y 


5$ 12-15 行 





























一 个 文件 包含 了 所 有 的 
RIT] forms.py 文件 




















以 及 每 行 的 时 间 惟 字段， 所 有 数据 库 查 询 














这 里 创建 了 BlogPostForm 对 象 ， 即 数据 模型 的 表单 版 本 。Model.model 属性 指定 了 它 所 























示例 11-5 中 的 mysite/blog/admin.py 文件 只 如 
























































t 
t 
E 


字段 〈 根 据 需 要 )。 

















E 应 用 启用 了 admin 时 才 会 用 到 。 该 文件 包 





到 的 注册 类 ， 以 及 任何 特定 的 admin 类 。 


示例 11-5 blog 应 用 的 Admin 配置 文件 admin.py) 


dmin): 
mestamp ') 


1 # admin.py 

2 from django.contrib import admin 

3 from blog import models 

4 

5 class BlogPostAdmin(admin.ModelA 

6 list display = ('title', ‘ti 

7 

8  admin.site.register(models.BlogPost, BlogPostAdmin) 
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逐 行 解 释 

第 5~8 AT 

这 里 仅 用 于 Django admin, 其 中 BlogPostAdmin 38/4 list. display 属性 用 于 告知 admin 在 admin 
控制 台中 显示 那个 字段 ， 帮 助 用 户 区 分 不 同 的 数据 记录 。 还 有 其 他 属性 ， 这 里 就 不 一 一 介绍 了 。 
但 建议 读者 阅读 文档 : http//docs.djangoproject.com/ en/dev/ref/contrib/admin/#modeladmin-options . 
没有 list display 标识 ， 则 只 会 看 到 每 行 的 泛 型 对 象 名 称 ， 因 此 几乎 无 法 区 分 不 同 的 实例 。 最 


























注册 admin 应 用 的 数据 和 admin 模型 。 
的 核心 ， 代 码 位 


后 要 做 的 是 (在 第 8 行 ) 

示例 11-6 显示 了 应 月 
位 置 ， 它 等 同 于 大 部 分 Web 应 用 的 控制 器 
强大 的 通用 视图 就 是 为 了 不 再 需要 用 至 
更 难 阅 读 和 理解 )。 读 者 在 这 个 文件 中 创建 的 任何 自 定义 或 半 通 用 视图 代码 需 





























于 mysite/blog/views.py ! 
的 代码 。 上 共有 讽刺 意味 的 是 ，Django 





















































HH 
E 




































































| views.py《〈 但 有 人 会 觉得 这 样 隐藏 了 太 多 的 东 


。 这 里 就 是 所 有 视图 所 在 的 





遵循 DRY 原则 ， 
， 让 源码 
尽量 短小 、 易 i 


ci 


yu 




















, 
































且 可 重用 。 换 名 话说 ， 尽 可 能 符合 Python 风格 。 创 建 良好 的 测试 和 文档 就 不 





示例 11-6 blog 的 视图 文件 〈views.py) 
的 所 有 逻辑 都 位 
# Views .py 


from datetime import datetime 
from django.http import HttpResponseRedirect 
































的 组 件 。 








Ph， 通过 URLconf 调用 其 











™ F views .py 文件 





from blog.models import BlogPost, BlogPostForm 


def archive(request): 
posts BlogPost.objects.al1Q[:10] 
return direct to template(request, 'archive.html', 
{'posts': posts, 'form': BlogPostForm()}) 


VO O06 -—) O0 tn 4 Ut -— 


def create blogpost(request): 
if request.method -- 'POST': 
form = BlogPostForm(request.POST) 
if form.is_validQ): 
post = form.save(commit-False) 
post.timestamp=datetime.now() 
post.save() 
return HttpResponseRedirect('/blog/') 





这 里 有 许多 导入 语句 ， 所 以 是 时 候 分 享 男 一 种 好 习惯 了 ， 即 根据 与 应 用 
导入 语句 。 也 就 是 说 ， 首 先 访问 所 有 标准 库 模块 (这 里 是 datetime) 和 包 。 
赖 的 框架 模块 和 包 (django.*)。 最 后 是 应 用 自己 的 导入 语句 (blog.models)。 
4 导入 语句 会 避免 大 多 数 很 明显 的 依赖 问题 。 






































SS 


7 


Wr. 


from django.views.generic.simple import direct to template 


的 相似 程度 组 织 
第 二 部 分 是 所 依 
按照 这 种 顺序 组 
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传递 


请 求 上 下 文 实例 ， 因 为 这 些 内 容 已 经 推 到 通用 视图 中 处 理 ， 这 里 4 


第 7 一 11 AT 














blog.views.archiveO 函 数 是 应 用 的 主要 视 几 。 该 函数 从 数据 库 中 提取 出 最 新 的 10 个 
对 象 ， 打 包 这 些 数据 并 为 用 户 创建 一 个 输入 表单 。 它 接着 将 数据 和 表单 作为 上 下 文 
给 archive.html 模板 。 人 快捷 函数 render_to_response() 被 direct_to_templateO 通 用 视图 替换 
( pipe archive() 转 成 半 通 用 视图 )。 
在 最 初 ，render_to_response0O 不 仅 将 模板 名 称 和 上 下 文 作为 参数 ,还 接收 CSTF 验证 所 需 
的 RequestContext 对 象 ， 将 最 终 响 应 返回 给 客户 端 。 当 使 用 direct_to_template() 后 ,无须 传递 


























































































































也 就 是 针对 原来 快捷 方式 的 快捷 方式 。 


& 12—19 行 







































































只 须 处 理应 用 的 核心 内 容 ， 





因为 URLconf 将 所 有 的 POST 请 求 关联 到 这 个 视图 中 ， 所 以 blog.views.create_blogpostO 





函数 与 template/archive.html 中 的 表单 行为 关联 。 如 果 该 请 求 确实 是 POST 请 求 ， 则 创建 
BlogPostForm 对 象 ， 提 取 用 户 填 充 的 表单 字段 。 当 在 第 15 行 成 功 验证 后 ， 在 第 16 行 调用 
form.save() 方 法 返回 创建 的 BlogPost 的 实例 。 
前 面 提 到 过 ，commit=False 标记 让 save0O 不 要 将 实例 存储 到 数据 库 中 (因为 还 需要 填充 时 


间 惟 字段 )。 这 需要 显 式 调 | 



























































实例 的 post.save0 方 法 来 实际 存储 它 。 如 果 is_valid0 返 回 False, 














则 跳 过 存储 数据 。 如 果 该 请 求 是 GET 请 求 ， 也 同样 如 此 ， 这 种 情形 是 用 户 直 接 在 地 址 栏 中 输 
A URL. 
最 后 一 个 要 查看 的 文件 是 示例 11-7 中 myblog/apps/templates/archive.html 这 个 模板 文件 。 








示例 11-7 blog 应 用 的 主页 面 的 模板 文件 《archive.htm1l) 
模板 文件 用 于 提供 HTML， 以 及 用 编程 方式 控制 程序 输出 。 
























































1 «!-- archive.html --> 

2 «form action="/blog/create/" method=post>{% csrf token 96) 
3 <table>{{ form }}</table><br> 

4 <input type=submit> 

5 </form> 

6 <hr> 


7 
8 {% for post in posts %} 
9 <h2>{{ post.title }}</h2> 


10 <p>{{ post.timestamp }}</p> 
11 <p>{{ post.body }}</p> 
12 <hr> 


13 {% endfor %} 


pe 


1 一 6 行 

















第 
这 个 模板 的 前 半 部 分 表示 用 户 的 输入 表单 。 在 提交 时 ， 服 务 器 执行 前 面 提 到 的 














create. blogpost() #4 A 


BlogPostForm 的 实例 ， 它 是 基于 数据 模型 的 
格式 选择 。 还 提 到 了 第 1 行 的 csrf_token 
提供 RequestContext 的 原因 ， 这 样 才能 在 这 里 使 月 

















& 8—13 行 





函数 ， 在 数据 库 中 创建 新 的 BlogPost 项 。 
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第 2 行 的 表单 变量 来 自 
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Ime 





IEI). B 
于 防止 CSRF， 这 也 是 必须 在 archiveO 视 



























































1 面 提 到 过 ， 可 以 从 其 他 
图 函数 中 





该 模板 的 后 半 部 分 只 处 理 一 些 最 新 的 BlogPost 对 象 ， 最 多 10 个 。 遍 历 这 些 BlogPost 对 














象 ， 为 用 户 生 成 独立 的 博文 。 在 每 篇 文章 之 间 《〈 以 及 该 循环 前 面 ) 月 








的 分 割 。 





11.15.2 blog 应 用 总 结 


当然 ,还 可 以 继续 向 这 个 blog 应 用 添加 其 他 特 司 
了 Django 的 强大 之 处 。 更 多 挑战 可 以 去 看 看 本 章 末 尾 的 练习 。 在 构建 这 个 blog 原型 应 月 
过 程 中 ， 可 以 看 到 Django 优雅 、 省 力 的 特性 。 甚 




















































































































昌 水 平分 割 线 进行 视觉 上 





E， 不 过 希望 到 现在 已 经 向 读者 充分 展示 








的 





。 内 置 的 开发 服务 器 ， 可 以 没有 外 部 依赖 ， 并 且 在 编辑 代码 后 自动 重新 载 入 。 
e Al Python 创建 数据 模型 ， 无 须 编写 或 维护 SQL 代码 或 XML 描述 文件 。 





。 自动 的 abmin 应 月 























。 模板 系统 ， 可 以 ) 
。 模板 过 滤器 ， 可 以 在 不 干扰 应 用 业务 逻辑 的 情况 下 
e URLconf 系统 ， 可 以 灵活 设计 URL， 同 时 不 会 到 影响 应 | 


。 ModelForm 对 象 ， 只 须 稍 微 编码 就 可 以 方便 地 创建 基于 数据 模型 的 表单 数据 。 







































































最 后 ， 建 议 将 应 ) 












































localhost/127.0.0.1， 让 应 用 在 生产 环境 中 工作 。 


如 果 读 者 喜欢 这 个 示 伪 
的 示例 。 既 然 读者 对 Django 有 了 一 定 的 了 解 ， 就 通过 学 习 
F. 45 Twitter 交互 、 使 用 




















T H LF Ah EE E T MRA 



































昌 ， 提 供 全 方位 的 内 容 编辑 功能 ， 无 技术 背景 的 用 户 也 能 使 用 。 
























































JRE HTML. CSS, JavaScript 或 任何 文本 输出 格式 。 
展现 数据 (如 日 期 )。 











中 特定 部 分 的 URL. 






































使 用 开发 服务 器 。 放 弃 








j 部 署 到 真正 连接 到 因特网 的 服务 器 ， 不 
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中 了 解 到 更 完善 
个 


























的 项 目 来 更 进一步 。 这 




















OAuth。 这 个 项 目 也 

















是 其 他 更 大 项 目的 起 点 。 


11.16 * 中 级 Django 应 用 : TweetApprover 


既然 读者 对 Django 已 经 有 了 基本 了 解 , 就 创建 
分 将 介绍 如 何 完成 下 面 的 任务 。 
1. 在 Django 中 分 割 较 大 的 Web 应 用 (项 目 
2. 使 用 第 三 方 库 。 





关于 Django 的 第 二 部 































































































3. 使 用 Django 的 许可 系统 。 











4. 从 Django 发 送 电 子 邮件 。 





























个 更 真实 的 应 用 , 完成 一 些 有 用 的 事情 。 
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这 个 应 用 将 解决 更 常见 的 使 用 情形 ,， 即 一 个 公司 有 一 个 Twitter 账户 , 希望 普通 员工 发 布 
关于 其 业绩 、 产 品 的 消息 。 但 也 需要 处 理 一 些 业务 逻辑 ， 并 且 每 条 消息 必须 先 由 经 理 批 准 后 











才能 发 布 。 


























































































































当 审核 者 批准 了 一 条 推 文 后 ， 公 司 Twitter 账户 就 自动 发 布 该 推 文 , 但 当 审 核 者 拒绝 了 一 





条 推 文 时 ， 该 推 文 会 退回 至 作者 ， 并 通知 拒绝 原因 及 修改 意见 。 有 具体 工作 流 见 图 11-21。 

















可 以 从 零 开 始 编写 这 个 应 用 
据 读 写 的 代码 、 将 数据 项 映射 到 Python 类 ， 
前 ， 将 数据 组 织 成 HTML 格式 ， 等 等 。 而 使 月 
Django 没有 与 Twitter 交互 的 内 置 功能 ， 但 可 以 使 


















































。 如 果 这 样 必须 构建 数据 模型 ， 编 写 连 接 到 数据 库 并 进行 数 
编写 处 理 Web 请 求 的 代码 ， 在 数据 返回 给 用 户 

























































把 通知 邮件 
发 送 给 经 理 





员工 编辑 
推 文 





把 通知 邮件 发 送 
给 员工 
Jit 


E 
把 推 文 发 布 到 把 通知 邮件 发 送 
Twitter 给 员工 
图 


11-21 TweetApprover 工作 流 


















11.16.1 创建 项 目 文件 结构 


当 设计 一 个 新 的 Django 应 用 时 ， 首 先 应 该 设计 应 用 结构 。 有 了 Django， 可 以 将 一 个 项 
目 分 割 成 若干 单独 的 应 用 。 在 前 面 的 blog 示例 中 ， 项 目 中 只 有 一 个 应 用 (blog)。 但 如 同 本 






























































章 开篇 所 述 ， 应 月 














的 数目 可 以 不 止 一 个 。 当 编写 一 个 实际 的 应 用 时 ， 项 目 中 


H Django 可 以 非常 轻松 地 完成 这 些 任 务 。 即 使 
j 其 他 Python 库 来 完成 该 作业 。 


ra 本 
ai 
=j 





理 多 个 较 小 的 























应 用 比 管 理 一 个 庞大 、 单 一 且 笨 重 的 











“TweetApprover” 需 要 面向 两 也 
的 管理 者 。 在 TweetApprover 项 目 中 ， 会 分 别针 对 这 两 种 














别称 为 poster 禾 





首先 ， 创 建 这 个 Django 项 目 。 在 命令 行 中 运行 下 面 








应 用 要 容易 。 
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approver。 








} 











中 要 到 的 django-admin.py startproject 命令 类 似 。 


$ django-admin.py startproject myproject 


为 了 与 之 前 的 mysite 项 目 进行 区 分 ， 这 里 把 它 命名 为 “myproject”。 当 然 ， 读 者 也 可 以 




















使 用 其 他 名 称 。 





从 命令 行 跳 转 到 myproject 文件 夹 中 , 在 该 文件 夹 ! 





j 户 ， 一 是 发 布 推 文 
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这 条 命令 创建 了 myproject Xf 





















































$ manage.py startapp poster approver 


这 条 命令 会 在 myproject LPF! 
样板 文件 。 现 在 项 目 文 作 















































$ ls -l * 

-rw-r--r-- 1 wesley 
-rWXI-XI-X 1 wesley 
-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
approver: 

total 24 

-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
poster: 

total 24 

-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 
-rw-r--r-- 1 wesley 


设置 文件 





创建 新 的 Django 项 目 之 后 ， 通 常 需要 打开 settings.py XH 
TweetApprover， 需 要 添加 一 些 设 置 文件 ， 








admin 0 Jan 
admin 546 Jan 
admin 4790 Jan 
admin 494 Jan 


admin 0 Jan 
admin 57 Jan 
admin 514 Jan 
admin 26 Jan 


admin 0 Jan 
admin 57 Jan 
admin 514 Jan 
admin 26 Jan 























定 当 提交 新 推 文 提交 并 需要 






































创建 poster 和 approver 文件 夹 ， 其 中 
F 的 基本 框架 应 如 下 所 示 。 


11 10:13 __init__.py 
11 10:13 manage.py 
11 10:13 settings.py 
11 10:13 urls.py 


11 10:14 , init__.py 
11 10:14 models.py 
11 10:14 tests.py 
11 10:14 views.py 


11 10:14 _ init__.py 
11 10:14 models.py 
11 10:14 tests.py 
11 10:14 views.py 

















的 命令 ， 这 与 前 面 创建 mysite 项 目 


} 夹 ， 其 中 含有 前 面 介绍 的 一 些 标准 样板 文件 。 
创建 两 个 应 用 , 即 poster 和 approver。 


BH 


F， 进 行 编辑 以 安装 项 目 。 对 于 
默认 情况 下 没有 的 配置 。 首 先 ， 添 加 新 的 设置 ， 指 
核 时 应 该 通知 谁 。 











的 普通 员工 ， 二 是 对 推广 进行 审核 
户 构 建 一 个 Django 应 用 ， 应 用 分 






































T 


1 含有 标准 应 











$ 
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TWEET. 


注意 ， 这 并 不 是 标准 的 Django 设置 , 仪 仅 是 这 个 应 用 需要 用 到 的 。 


_APPROVER_EMAIL = 'someone@mydomain.com!' 
































因为 设置 文件 是 标准 




















Vis SURE INL) 











j 的 设置 




















的 Python 文件 ， 所 以 可 以 自由 添加 自己 的 设 定 。 但 除了 将 这 条 信息 分 
中 ， 还 可 以 统一 放 到 项 目 级 别 的 设置 将 这 
真实 的 电子 邮件 地 址 。 

同样 ， 需 要 千 


况 下 不 含有 这 些 内 容 ， 所 以 首先 要 将 它们 添加 进去 。 


EMAIL HOST = 'smtp.mydomain.com' 
EMAIL HOST USER - 'username' 

EMAIL HOST PASSWORD - 
DEFAULT FROM EMA 








» 
Y 
o YER 
























































情 








'password' 
L = 'username@mydomain.com' 


SERVER EMAIL = 'username@mydomain.com!' 


作为 示例 的 电子 邮件 地 址 蔡 换 成 审核 者 


知 Django 如 何 发 送 电子 邮件 。Django 会 读 取 下 面 设置 ， 设 置 文件 中 默认 





将 上 面 作为 示例 的 值 蔡 换 成 真实 























的 电子 邮 伯 





F 服 务 器 的 值 。 如 果 没 有 访问 邮件 服务 器 的 权 























限 ， 则 可 以 跳 过 这 一 部 分 ， 并 注释 掉 TweetApprover 中 发 送 电 子 邮件 的 代码 。 到 时 候 会 提醒 
的 。 关 于 Django 设置 的 更 多 内 容 ， 可 以 访问 http://docs.djangoproject.com/en/dev/ref/settings。 
TweetApprover 会 使 用 Twitter 的 公共 API 发 布 推 文 。 为 了 做 到 这 一 点 ， 应 用 需要 文 














+ OAuth ^£ il 
似 ， 只 是 应 月 















































FE〈 后 续 的 边栏 会 进一步 介绍 OAuth). OAuth Fil 
H CE OAuth 中 称 为 “ 
































与 普通 的 用 户 名 和 密码 类 
j 户 也 需要 一 对 凭证 。 











H 


EH 











ee”) 需要 一 对 凭证 











, 





— 

















若 想 调用 Twitter API 并 正常 工作 ， 必 须 将 这 4 块 数据 发 送 至 Twitter。 就 像 这 一 节 的 第 一 
个 例子 中 的 TWEET APPROVER EMAIL 那样 ， 这 些 设置 也 不 是 Django 的 标准 设置 ， 仪 仅 

















的 自 定义 设置 。 


TWITTER CONSUMER KEY = '. . . 
TWITTER CONSUMER SECRET = '. . .' 
TWITTER OAUTH TOKEN = ' xt 
TWITTER OAUTH TOKEN SECRET = '. |.. 


幸运 的 是 ，Twitter 可 以 方便 地 获取 这 4 个 


是 TweetApprover 应 月 

















H. 

















































































































访问 http://dev.twitter.com, Sok, AJR AA 

















a Your apps。 接 下 来 ， 如 果 还 没有 应 用 ， 就 单 击 Register New App; 否则 ， 选 择 已 有 的 应 用 。 
对 于 创建 新 应 用 ， 填 写 图 11-22 所 示 的 表单 。 在 “Application Website” 字 段 输入 什么 内 容 都 
无 所 谓 。 注 意 ， 在 本 章 的 演示 中 ， 使 用 的 是 TweetApprover 这 个 名 称 ， 已 经 占用 它 了 ， 所 以 
读者 需要 自己 重新 选择 一 个 名 称 。 

填写 完 表单 后 ， 单 击 Save Application， 单 击 Application Detail 按钮 。 在 明细 页 面 ， 找 到 












































OAuth 1.0a Settings。 从 这 里 分 别 复 和 

的 TWITTER_CONSUMER_KEY 和 TWITTER_CONSUMER_SECRET 变量 中 。 
最 后 ， 需 要 设置 TWITTER_OAUTH_TOKEN fil TWITTER OAUTH TOKEN. 

Access Token 按钮 ， 可 以 看 到 类 似 图 11-23 所 示 的 页 面 ， 其 中 含有 所 需 的 值 。 









































Bl Consumer Key 和 Consumer Secret values $1 i x44 








S 
E 

















6 My 


FL 
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Workflow for approving company tweets. 


Application Website: -~ ~ ae 


Where's your application's home page, where users can go to download or use it? 


(9 Client © Browser 
Does your application run in a Web Browser or a Desktop Client? 
Browser uses a Callback URL to retum to your App after successful authentication 


Client prompts your user to retum to your application after approving access. 


(9) Read & Write © Read-only 
What type of access does your application need? Note: (Anywhere applications 
require read & write access 





11-22 ”使 用 Twitter 注册 一 个 新 的 应 用 








twitter developers APIStatus Documentation Discussions — Yourapps 


TweetApprover Access Token Requisition 
Your very own access token. Keep it safe 
Here's your OAuth 1.0a access token for @tweetapprover 


Use the token string as your oauth_token and the token secret as your oauth token secret when signing 
requests. Read more about OAuth authentication » 


Keep the oauth_token_secret a secret. Along with your OAuth consumer secret, these keys should never be 
human readable in your applications. 


Access Token (oauth_token) 


>=- o hc a an o oe 


Access Token Secret (oauth_token_secret) 


-— em ee ee 





图 11-23 M Twitter 获取 OAuth token 和 OAuth token secret 
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核心 提示 : OAuth 和 授权 与 验证 

OAuth 是 一 个 开放 的 授权 协议 ， 用 于 让 应 用 可 以 安全 地 通过 API 访问 数据 。 不 仅 可 
以 保证 在 不 暴露 用 户 名 和 密码 的 情况 下 访问 应 用 ,还 可 以 方便 地 取消 访问 .大 量 的 Web API 
都 在 使 用 OAuth， 如 Twitter。 关 于 OAuth 工作 方式 的 更 多 信息 可 以 参考 下 面 这 些 链接 : 

e —http://hueniverse.com/oauth 

e http:/oauth.net 

e  http:;//en.wikipedia.org/wiki/Oauth 

注意 ，OAuth 仅仅 是 一 个 授权 协议 的 示例 ， 还 有 其 他 的 协议 ， 如 OpenID。 授 权 的 目 
的 不 是 为 了 访问 数据 ， 而 是 为 了 验证 身份 ， 即 获得 用 户 名 和 密码 。 有 时 会 分 别 用 到 验证 和 
授权 ， 例 如 应 用 需要 用 户 通过 Twitter 验证 ,然后 用 户 授 权 应 用 更 新 用 户 的 Twitter 流 状态 。 


如 往常 一 样 , 应 该 编辑 TweetApprover 用 来 存储 数据 的 数据 库 。 








DATABASES 变量 ， 指 向 




















在 前 面 简单 的 博 








各 以 

















JF, 使 用 SQLite， 





但 











同时 也 说 过 可 以 使 















































] Django xc SEI 
































E 何 数据 库 





如 果 依 然 想 使 用 SQLite， 则 只 须 从 前 面 的 博客 应 用 中 复制 相应 的 配置 即 可 。 不 要 志 — 
manage.py Syncdb 。 
另外 ， 和 之 前 的 一 样 ， 为 了 更 好 地 执行 对 数据 的 CRUD 访问 ， 最 好 启用 Django 的 amin. 


在 前 面 的 blog 应 








PREFIX 变量 指向 






































AK 





， 大 部 分 时 候 使 用 3 
都 是 自动 处 理 的 。 如 果 在 真实 的 Web 服务 器 如 (Apache) 上 i 











存 文件 的 Web 目录 。 更 多 信 | 





a 


TET» 


开发 服务 器 运行 admin, admin 页 面 的 








com/ en/dev/howto/deployment/modwsgi/#serving-the-admin-files o 









































DULCES) 

















图 片 和 样式 表 








i ADMIN_MEDIA_ 
息 可 以 访问 这 个 链接 :http://docs.djangoproject. 


gau 

















用 于 Web 页 面 的 HTML 模板 一 般 位 于 应 用 的 templates 目录 中 ， 如 果 模 板 不 在 这 个 通常 
所 在 的 位 置 ， 还 可 以 告诉 Django 在 例如 ， 如 果 想 创建 一 个 独立 存储 模板 的 位 置 ， 
则 需要 显 式 在 settings.py 文件 中 指出 这 个 位 置 。 








为 了 做 到 这 一 
POSIX | 





, 


e 




















类 似 下 面 这 样 。 


TEMPLATES DIRS = ( 


' /home/username/myproj 


) 




















在 Windows 系统 上 ， 由 于 使 用 的 是 






































settings.py， 并 确 


























ect/templates', 


DOS 的 文件 路 径 名 称 ， 








目录 的 路 径 会 


对 于 Mr NM 需要 在 myproject H 录 中 有 个 统一 存放 模板 的 templates 文件 夹 。 
保 TEMPLATES_DIRS 变量 指向 这 个 物理 











地 址 。 在 














有 所 不 同 。 如 


果 将 项 目 添加 到 已 存在 的 C:\py\django 文件 夹 中 ， 则 路 径 如 下 所 示 。 
r'c:\py\django\myproject\templates', 
前 面 提 到 过 ， 前 导 “r” 指 出 这 是 Python 原始 字符 串 ， 在 这 里 字符 串 中 含有 多 个 反 斜 杠 














时 非常 有 用 。 
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最 后 ， 需 要 通知 Django 这 里 创建 了 两 个 应 用 Cposter 和 approver)。 需 要 将 “myproject. 
approver” 和 “myproject.poster” 添 加 到 设置 文件 中 的 INSTALLED. APPS 变量 中 。 


11.16.2 ”安装 Twython Æ 


TweetApprover 应 用 会 使 用 Twitter 的 公共 API 向 全 世界 发 布 推 文 。 笠 运 的 是 ， 有 一 些 非 
常 好 的 库 可 以 轻松 完成 这 一 点 。Twitter 维护 了 这 样 一 个 Python 库 列表 http://dev.twitter. 
com/pages/libraries#python。 第 13 章 会 介绍 Twython 库 和 Tweepy FE. 

对 于 这 个 应 用 , 会 使 用 Twython 库 来 在 Twitter 和 应 用 之 间 沟 通 。 这 里 会 使 用 easy. install, 
但 读者 也 可 以 使 用 pip 安装 。easy_install 会 安装 twython 及 其 依赖 ， 包 括 oauth2、httplib2 和 
simplejson。 但 由 于 命名 约定 问题 ， 尽 管 Python 2.6 及 后 续 版 本 带 有 simplejson， 但 它 重 命名 
为 json， 因 此 easy. install 仍然 会 安装 这 三 个 twython 依赖 的 库 ， 输 出 如 下 所 示 。 


$ sudo easy install twython 


Password: 大 大 大 大 大 大 大 大 大 大 大 




















































































































Searching for twython 


Processing twython-1.3.4.tar.gz 
Running twython-1.3.4/setup.py -q bdist egg --dist-dir /tmp/ 
easy install-QrkR6M/twython-1.3.4/egg-dist-tmp-PpJhMK 


Adding twython 1.3.4 to easy-install.pth file 


Processing dependencies for twython 
Searching for oauth2 


Processing oauth2-1.2.0.tar.gz 

Running oauth2-1.2.0/setup.py -q bdist egg --dist-dir /tmp/ 
easy install-br80n8/oauth2-1.2.0/egg-dist-tmp-cx3yEm 
Adding oauth2 1.2.0 to easy-install.pth file 


Searching for simplejson 


Processing simplejson-2.1.2.tar.gz 

Running simplejson-2.1.2/setup.py -q bdist egg --dist-dir /tmp/ 
easy install-ZiTOri/simplejson-2.1.2/egg-dist-tmp-FWOza6 
Adding simplejson 2.1.2 to easy-install.pth file 


Searching for httplib2 
Processing httplib2-0.6.0.zip 


Running httplib2-0.6.0/setup.py -q bdist egg --dist-dir /tmp/ 
easy install-rafDWd/httplib2-0.6.0/egg-dist-tmp-zqPmmT 
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Adding httplib2 0.6.0 to easy-install.pth file 


Finished processing dependencies for twython 


核心 提示 : 安装 疑难 解答 


在 Python 2.6 中 进行 安装 可 能 不 会 像 这 里 这 么 流畅 。 下 面 是 一 些 容易 出 错 的 地 方 。 


1. 


2: 


在 Mac 上 的 Python 2.5 中 安装 simplejson， 但 easy. install 无 法 正确 安装 ， 报 错 并 
退出 。 此 时 ， 可 以 用 下 面 这 种 较 老 的 方式 解决 。 

。 找到 并 下 载 压缩 包 (这 里 是 simplejson 的 压缩 包 )。 

。 ”解压 并 进入 解压 后 的 顶层 文件 夹 。 

e 运行 python setup.py install . 

另 一 个 读者 发 现 的 问题 是 ， 当 编译 simplejson 可 选 的 加 速 组 件 时 ， 由 于 这 是 一 个 
Python 扩展 ， 因 此 须要 安装 所 有 依赖 的 工具 来 编译 这 个 扩展 ， 包 括 让 编译 器 可 以 
找到 Python.h 等 。 在 Linux 系统 上 ， 只 须 安装 python-dev 这 个 包 即 可 。 


当然 ,还 有 其 他 警告 ， 但 希望 这 里 的 介绍 能 解决 读者 可 能 遇 到 的 类 似 问题 。 兼 容 性 方 
面 的 小 问题 到 处 都 有 ， 但 希望 不 会 影响 到 读者 前 进 的 脚步 。 网 上 能 得 到 许多 帮助 。 


当成 功 安装 后 ， 就 可 以 决定 TweetApprover 使 用 哪些 URL 了， 以 及 如 何 映 射 到 不 同 的 用 
































户 行为 上 。 
11.16.3 URL 结构 
为 了 创建 一 个 统一 的 URI 策略 ， 需 要 所 有 用 于 poster 应 用 的 URL 以 /post 开头 ， 而 用 于 


apporver 应 用 的 URL 以 /approve 开头 。 这 意味 着 如 果 TweetApprover 运行 在 example.com 这 





















































YN 

















SAF, poster Hj URL & V http://example.com/post JF 3. , approver HJ URL & UJ https://example. 


com/approve 开头 。 
现在 来 看 关于 发 布 新 推 文 的 页 
让 用 户 提 交 新 推 文 ， 当 接收 到 只 以 /post 结尾 的 URL 时 ， 将 用 户 带 到 这 个 页 面 。 用 户 提交 了 


























的 更 多 细节 ， 这 些 页 面 位 于 /post 下 。 需 要 有 一 个 页 面 








四 




































































则 推广 后 ， 需 要 另 一 个 页 面 通知 已 经 提交 ， 这 个 页 面 放 在 /post/thankyou 中 。 最 后 ， 需 要 















































一 个 URL 将 用 户 带 到 需要 编辑 的 已 有 推 文中 , 这 个 页 面 放 在 /post/ediWX F, Mob X 是 需要 








编辑 的 





EM ID. 





























管理 





者 的 页 面 位 于 /approve 中 。 当 用 户 访问 这 个 URL 时 ， 用 列表 形式 显示 出 































































































要 审核 及 





前 
已 发 布 的 推 文 。 还 需要 一 个 页 面 来 审核 一 则 特定 的 推 文 ， 并 可 以 留 下 反馈 ， 该 页 面 位 于 
lapprove/review/X FP, X 是 推 文 ID。 
















































































最 后 ， 需 要 决定 当 用 户 访问 根 URL (example.com) 时 显示 哪个 页 面 。TweetApprover 
的 大 多 数 用 户 是 提交 新 推 文 的 雇员 ， 所 以 将 根 URL 指向 与 /post 相同 的 页 面 。 
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前 面 已 经 了 解 ，Django 使 用 配置 文件 来 将 URL 映射 到 代码 。 在 项 目 级 别 ， 在 myproject 
目录 中 ， 会 发 现 urls.py 文件 ， 该 文件 让 Django 将 请 求 分 派 到 对 应 的 应 用 中 。 示 例 11-8 中 的 
文件 实现 了 前 面 介 绍 的 URL 结构 。 


















































示例 11-8 项 目的 URLconf 文件 (myproject/urls.py) 
与 前 面 的 示例 相同 ， 这 个 项 目 URLconf 会 处 理应 用 或 admin 页 面 。 





















































1 # urls.py 
2 from django.conf.urls.defaults import * 
3 from django.contrib import admin 
4 admin.autodiscover() 
5 
6  urlpatterns = patterns('', 
7 (r'^post/', include('myproject.poster.urls')), 
8 (r'^$', include('myproject.poster.urls')), 
9 (r'^approve/', include('myproject.approver.urls')), 
10 (r'^admin/', include(admin.site.urls)), 
11 (r'^login', 'django.contrib.auth.views.login', 
12 {'template_name': 'login.htm1'3), 
13 (r'^logout', 'django.contrib.auth.views.logout'), 
14. ) 
逐 行 解释 
第 1~4 行 
前 几 行 是 URLconf 文件 中 一 直 存 在 的 样板 文件 ， 包括 相 应 的 导入 语句 ， 以 及 开发 所 需 的 


























amin。( 完 成 开发 后 ， 或 者 不 需要 admin， 则 可 以 方便 地 删除 掉 admin. ) 
第 6—14 47 
这 里 的 urlpatterns 变量 很 有 趣 。 第 7 fTiE Django 将 所 有 以 posV 开 头 〈 在 此 之 前 是 域名 ) 
的 URL 都 会 查找 对 应 的 URL 配置 文件 ， 即 myprojectposterurls 。 这 个 配置 位 于 
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myproject/poster/urls.py 文件 中 。 下 一 行 〈 第 8 行 ) 让 poster 应 用 配置 处 理 所 有 空 URL CHI H 
有 域名 )。 第 9 行 让 Django 将 以 approve/ 开 头 的 URL 分 派 到 approver 应 用 中 。 

最 后 ， 还 有 含有 将 URL 导向 admin B 10 行 ) 和 登录 、 注 销 页 面 (第 11 行 ) 的 指令 。 
这 里 许多 功能 都 是 Django 自 带 的 ， 所 以 无 须 自行 编写 相关 代码 。 这 里 还 没有 介绍 验证 问题 ， 
但 这 里 它 很 简单 ， 只 须 在 URLconf 中 包含 一 个 二 元 组 即 可 。Django 提供 了 自 有 的 验证 系统 ， 
但 也 可 以 自己 创建 一 个 。 在 第 12 章 中 ， 你 将 发 现 Google App Engine 提供 了 两 个 验证 选项 ， 
一 个 是 Google Account， 男 一 个 是 使 用 OpenID 的 联合 登录 名 。 

为 了 回顾 一 下 ， 完 整 的 URL 分 派 方 式 如 表 11-3 所 示 。 

从 表 11-3 中 可 以 看 到 ， 项 目的 URLconf 主要 目的 是 将 请 求 分 派 到 合适 的 应 用 及 其 处 理 
程序 中 ， 所 以 需要 继续 了 解 应 用 层面 的 urls.py 文件 。 首 先 来 看 poster 应 用 。 

与 刚刚 看 到 的 项 目的 URLconf 类 似 ， 匹 配 /post 或 “/” 的 URL 会 重 定向 到 poster 应 用 的 
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URLconf， 即 myproject/poster/urls.py 中 。 示例 11-9 显示 了 这 个 文件 , 该 文件 的 任务 是 将 URL 
剩余 的 部 分 映射 到 poster 应 用 中 需要 执行 的 实际 代码 ， 


表 11-3 该 项 目 处 理 的 URL 以 及 对 应 的 行为 


















































































































































URL 行 为 
/post 提交 新 推 文 
/post/edit/X 编辑 ID 73 X 的 推 文 
/post/thankyou 在 用 户 提交 推 文 后 显示 致谢 页 面 
/ 与 /post 相同 
/approve 列 出 所 有 待 审核 和 已 发 布 的 推 文 
/approve/review/X 于 审核 推 文 X 
/admin 转 到 项 目的 admin 页 面 
/login 户 登 录 
/logout 户 注销 














示例 11-9 poster 应 用 的 urls.py URLconf 文件 


该 URLconf 用 于 让 poster 应 用 执行 相应 的 行为 。 









































from django.conf.urls.defaults import * 


l 
2 

3 urlpatterns = patterns('myproject.poster.views', 
4 (r'^$', 'post tweet'), 

5 (r'^thankyou', 'thank you'), 

6 (r'Aedit/(?P<tweet_id>\d+)', 'post tweet'), 
qr i) 





























这 个 文件 中 的 正则 表达 式 只 会 查看 URL 中 /post/ 之 后 的 内 容 ， 根 据 patternsO 的 第 一 个 
参数 , 可 以 看 到 所 有 的 视图 函数 都 位 于 myproject/poster/views.py 中 。 对 于 第 一 个 URL 模式 ， 
如 果 它 是 空 的 ( 即 原先 的 请 求 要 么 是 /post/， 要 么 是 “/”)， 则 会 调用 post tweetO. Ai 
部 分 是 thankyou， 则 调用 thank_you0 。 最 后 ， 如 果 该 部 分 是 ediVX， 其 中 X 是 数字 ， 则 会 
调用 post_tweet(), X 作为 tweet id 参数 传 入 给 方法 。 很 清爽 ， 不 是 吗 ? 如 果 不 熟 悉 这 里 用 
正则 表达 式 语法 匹配 变量 名 称 ， 而 是 使 用 默认 的 整数 匹配 方式 ， 可 以 回顾 第 1 章 来 了 解 更 
多 内 容 。 
因为 将 项 目 分 割 成 两 个 不 同 的 应 用 ， 所 以 URLconf 和 视图 函数 文件 都 保持 在 最 小 水 平 。 
同时 更 易学 习 和 重用 。 现 在 完成 了 poster 应 用 的 设置 ， 接 下 来 对 approver 应 用 进行 配置 。 

与 poster 的 URLconf 相同 ， 当 Django 获得 一 个 请 求 时 ， 会 在 示例 11-10 显示 的 
myproject/approver/urls.py 文件 中 查找 以 /approve/ 开 头 的 URL。 如 果 路 径 只 有 /approve/， 则 j 
] list tweets(). WR URL 路 径 匹 配 /approveeview/X， 则 调用 review tweet(tweet id=X)。 
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示例 11-10 approver 应 用 的 urls.py URLconf 文件 


approver 应 用 的 URLconf， 用 于 处 理 approver 的 行为 。 









































from django.conf.urls.defaults import * 


(r'^$', 'list tweets'), 


l 

2 

3  urlpatterns = patterns('myproject.approver.views', 

4 

5 Cr'Areview/(?P<tweet_id>\d+)$', 'review tweet'), 


6 





























这 个 URLconf 短 一 些 ， 因 为 approver 应 用 只 有 少数 几 个 行为 。 此 时 ， 根 据 入 站 的 URL 
路 径 ， 很 清楚 需要 将 用 户 导 向 哪里 。 接 下 来 的 任务 是 处 理 项 目 用 到 的 数据 模型 。 


11.16.4 数据 模型 


TweetApprover 需要 在 数据 库 中 存储 推 文 。 但 管理 者 审核 推 文 时 ， 需 要 能 够 对 其 注释 ， 所 
以 每 条 推 文 可 以 有 不 同 的 注释 。 推 文 和 注释 都 需要 一 些 数据 字段 ， 如 图 11-24 所 示 。 

State 字段 用 来 存储 每 条 推 文 所 处 环节 的 不 同 阶段 。 图 11-25 显示 了 有 三 个 不 同 阶段 ， 
Django 会 确保 不 会 有 推 文 会 位 于 其 他 阶段 。 

如 前 面 见 到 的 ， 有 了 Django， 就 能 很 容易 在 数据 库 中 创建 正确 的 表 并 读 写 Tweet 和 
Comment 对 象 。 在 这 里 ， 数 据 模型 既 可 以 位 于 myproject/poster/models.py 中 ， 也 可 以 位 于 
myproject/approver/models.py 中 。 如 示例 11-11 所 示 , 这 里 选择 放 在 第 一 个 文件 中 。 不 用 担心 ， 
approver 应 用 仍然 能 访问 这 个 数据 模型 。 

















































































































































































































text 
author_email 
created_at 
published at 
state 


注释 


text 
created_at 


图 11-24 TweetApprover 的 数据 模型 
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TA published 
pending 
S rejected 
a, 
Up 


图 11-25 TweetApprover 中 的 用 于 推 文 的 状态 模型 
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雇员 创建 推 文 












































示例 11-11 用 于 poster 应 用 的 models.py 数据 模型 文件 
这 个 数据 模型 的 文件 用 于 poster 应 用 ， 含 有 用 于 发 布 (Tweet) fU (Comment) 的 类 。 





















































from django.db import models 


1 
2 
3 class Tweet(models.Model): 

4 text - models.CharField(max length-140) 

5 author email = models.CharField(max length-200) 

6 created at - models.DateTimeField(auto now add-True) 
7 published at = models.DateTimeField(nul 1l=True) 

8 STATE CHOICES = ( 





9 C'pending', 'pending'), 

10 C'published', '"'published'), 

1l ('rejected', 'rejected'), 

12 ) 

13 state = models.CharField(max length-15, choices-STATE CHOICES) 
14 

15 def | unicode (self): 

16 return self.text 

17 

18 class Meta: 

19 permissions = ( 

20 ("can approve or reject tweet", 
21 "Can approve or reject tweets"), 
22 ) 

23 

24 class Comment(models.Model): 

25 tweet - models.ForeignKey(Tweet) 

26 text = models.CharField(max length-300) 
27 created at - models.DateTimeField(auto now add-True) 
28 

29 def | unicode (self): 

30 return self.text 





第 一 个 数据 模型 是 Tweet 25. oed 即 通常 所 称 的 post 或 推 文 ， 消 息 
的 作者 试图 将 消息 提交 到 Twitter 的 服务 , 但 必须 管理 者 批准 。 管 理 者 可 以 对 Tweet 对 象 
进行 注释 ， 所 以 Comment 对 象 用 来 表示 一 个 Tweet 现在 来 进一步 
了 解 这 些 类 以 及 其 中 的 属性 。 




















Tweet 类 的 text 字段 和 author. email E BEBSH& BE 43 9] BLA 
受 限 于 短 消 息 服务 (shrot message service, SMS) 或 手机 上 文本 消息 的 最 大 长 度 ， 而 大 多 数 普 
通 的 电子 邮件 地 址 长 度 小 于 200 
使 用 Django 中 方便 的 auto now. add 特性 。 这 意味 着 无 论 什 么 时 
候 创 建 推 文 并 保存 进 数据 库 中 ，created_at 字段 会 自动 含有 当前 的 日 期 和 时 间 ， 除 非 显 式 设 
定 。 而 另 一 个 DateTimeField， 即 published_at， 人 允许 含有 空 值 。 该 字段 用 于 未 发 布 到 Twitter 





























对 于 created_at 字段 ， 














的 推 文 。 
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BIZE 140 和 200 个 字符 。 推 文 长 度 

















IN Be hy 


PY 0 



















































































接 下 来 ， 能 看 到 一 组 状态 的 枚 举 值 ， 以 及 state 字段 的 一 个 定义 。 调 用 这 些 状态 ， 并 将 状 
态 变量 绑 定 上 去 。Django 只 允许 Tweet 对 象 的 状态 是 这 三 者 之 一 。 这 里 定义 了 __unicode_0 
方法 ， 告 知 Django 在 管理 的 Web 站 点 中 显示 每 个 Tweet TRAY text 属性 。 回 想 一 下 本 章 前 















































[i BlogPost XR, TR XAJ H 





















































是 不 是 很 有 用 ?每 条 Tweet 对象 应 该 有 独一无二 的 标签 。 

















前 面 已 经 接触 到 了 Meta 内 部 类 ， 但 仍然 提醒 一 下 ， 可 以 使 用 这 个 内 部 类 通知 Django 对 数 











据 实体 的 其 他 要 求 。 在 这 中 




















n> 
E» bL 




















JK Django 新 的 许可 标 表 。 默 认 情况 下 ，Django 在 添加 、 






































改变 、 删 除数 据 模 型 中 的 所 有 实体 时 创建 许可 标志 。 应 用 可 以 检查 当前 登录 的 用 户 是 否 有 添加 


Tweet 对 象 的 权限 。 通 过 Django admin, 
这 样 没 问 题 , 但 TweetApprover 应 用 需要 一 个 特定 的 权限 标志 ， | 







































































网 站 管理 员 可 以 将 权限 授权 给 注册 用 户 。 
IF IR] Twitter 发 布 推 文 。 





这 与 前 面 添加 、 改 变 、 删 除 Tweet 对 象 有 所 不 同 。 将 这 个 标记 添加 到 Meta ZH, Django 会 





























批准 或 拒绝 推 文 。 





在 数据 库 中 创建 几 个 合适 的 标识 。 后 面 ; 


























各 会 介绍 如 何 读 取 这 个 标记 ， 以 确保 只 有 管理 者 可 以 




















Comment 类 重要 性 较 低 ， 但 依然 值得 一 提 。 该 类 有 一 个 ForeignKey 字段 ， 它 指向 Tweet 








类 。 这 个 字段 让 Django 在 数据 库 




















的 Tweet 和 Comment 对 象 之 间 创 建 一 对 多 关系 。 与 Tweet 














对 象 类 似 ，Comment 记录 同样 有 text 和 created at 字段 ， 二 者 与 在 Tweet 中 的 同名 字段 含义 


相同 。 



































当 完 成 模型 文件 后 ， 可 以 运行 syncdb 命令 在 数据 库 中 创建 对 应 的 表 ， 并 创建 超级 用 户 


$ ./manage.py syncdb 


最 后 ， 如 示例 11-12 所 示 , 需要 添加 myproject/ 来 允许 编辑 Tweet, I JI poster/admin.py 
文件 让 Django 在 admin 中 显示 Comment 对 象 。 












































示例 11-12 ”使 用 admin 注册 模型 (admin.py) 


poster 应 用 的 这 个 URLconf 处 理 poster 的 行为 。 




















l 
2 
3 
4 


from django.contrib import admin 
from models import 


* 


admin.site.register(Tweet,Comment ll 
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所 有 部 分 都 准备 完成 , Django 可 以 以 此 为 应 用 自动 生成 管理 Web 站 点 。 如果 现 在 就 想 尝 
i admin Web 站 点 ， 在 编写 approver 和 poster 视图 之 前 ， 需要 临时 注释 掉 示 例 11-13 
(myproject/urls.py) 的 第 6~8 行 ， 这 几 行 会 引用 这 些 视 图 。 接 着 可 以 通过 /admin 这 个 URL 
访问 admin web 站 点 〈 见 图 11-26)。 记 得 在 创建 完 poster/views.py 和 approver/views.py 之 后 


取消 对 这 几 行 的 注释 




















示例 11-13 ”临时 的 项 目 URLconf 文件 《myproject/urls.py) 

















Ua RR OU tK — 


10 
11 
12 
13 ) 




















这 里 还 没有 对 视图 的 引用 ， 所 以 先 注释 掉 ， 不 过 可 以 尝试 Django 的 adminweb 站 点 。 


from django.conf.urls.defaults import * 
from django.contrib import admin 
admin.autodiscover() 





urlpatterns = patterns('', 


#(r'Apost/', include('myproject.poster.urls')), 

#(r'A$', include('myproject.poster.urls')), 

#(r'Aapprove/', include('myproject.approver.urls')), 

(r'^admin/', include(admin.site.urls)), 

(r'^login', 'django.contrib.auth.views.login', 
{'template_name': 'login.html'3), 

(r'^logout', 'django.contrib.auth.views.logout'), 


图 11-27 显示 了 当 创 建 一 个 新 用 户 时 ， 会 看 到 自 定义 许可 标志 ， 该 标志 可 以 批准 或 拒绝 


JEX (“Can approve or reject tweets”)。 创 建 一 个 用 户 并 确保 新 用 户 有 这 个 权限 ， 在 后 面 测试 











TweetApprover 时 需要 用 到 这 个 功能 。 创 建 完 新 用 户 后 ， 需 要 能 够 编辑 用 户 的 个 人 资料 ， 并 设 
置 自 定 义 权限 〈 不 能 够 在 创建 新 用 户 的 时 候 设 置 这 些 权限 )。 


eoo; 











y Dì Site administration | Django | Django * ¥ + 


Groups 


Users 


Comments 


Tweets 


Sites 





EJ CO 


Django administration Welcome, ben. Documentation / Change password / Log out 


Site administration 


0: A 


Recent Actions 


Add Change My Actions 
Add *Ch Sb jen 

d» Add Change 

db Ad 

Add 
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11-26 AA Django 管理 站 点 











In 
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| eo o .. ] Change user | Django site : 1 P 
€2¢> 6: X 
| - 


M Active 
© Staff status 
E Superuser status 


User Available user permissions 
permissions q 


contenttypes | content type | Can add content [poster | tweet | Can approve or reject tweets 
contenttypes | content type | Can change cont: | 

contenttypes | content type | Can delete conte 

poster | comment | Can add comment 

poster | comment | Can change comment 


poster | comment | Can delete comment 
poster | tweet | Can add tweet 

poster | tweet | Can change tweet 

poster | tweet | Can delete tweet 

sessions | session | Can add session 

sessions | session | Can change session 

sessions | session | Can delete session 

sites | site | Can add site 


) Choose all Clear all 














图 11-27 ”向 新 用 户 授予 自 定义 权限 








核心 提示 : 最 大 限度 降低 代码 量 

目前 为 止 ， 大 部 分 都 是 配置 ， 很 少 涉 及 真正 的 编程 。Django 的 一 个 优势 就 是 如 果 正 
确 进行 了 配置 ， 就 无 须 编写 大 量 的 代码 ， 是 的 ， 不 鼓励 开发 者 编写 代码 听 起 来 有 点 讽刺 。 
但 需要 明白 的 是 ，Django 在 一 个 大 部 分 用 户 都 是 记者 ， 而 不 是 Web 开发 者 的 公司 中 创建 。 
让 新 闻 作 者 或 报社 的 其 他 员工 了 解 如 何 使 用 计算 机 当然 很 好 。 因 为 现在 是 为 了 让 他 们 具有 
一 些 Web 开发 技能 ， 但 不 是 让 他 们 不 知 所 措 ， 或 改变 他 们 的 职业 。 这 种 面向 非 专职 开发 人 
员 的 用 户 友好 性 融入 到 了 Django 中 。 


11.16.5 ”提交 新 推 文 以 便 审核 


创建 完 poster 应 用 后 ，Django 在 应 用 的 目录 中 生成 几乎 为 空 的 views.py 文件 。 这 里 定义 
了 URL 配 置 文件 中 引用 的 方法 。 示 例 11-14 显示 的 就 是 完整 的 myproject/poster/views.py 文件 
的 内 容 : 


















































示例 11-14 poster 应 用 的 视图 函数 (views.py) 
这 里 用 于 放置 poster 应 用 的 核心 逻辑 。 


1 # poster/views.py 
2 from django import forms 
3 from django.forms import ModelForm 
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from django.core.mail import send mail 

from django.db.models import Count 

from django.http import HttpResponseRedirect 

from django.shortcuts import get object or 404 

from django.views.generic.simple import direct to template 
from myproject import settings 

from models import Tweet 


class TweetForm(forms .ModelForm): 
class Meta: 
model = Tweet 
fields = ('text', 'author email') 
widgets = { 
'text': forms.Textarea(attrs={'cols': 50, 'rows': 3}), 


def post tweet(request, tweet id-None): 
tweet - None 
if tweet id: 
tweet - get object or 404(Tweet, id-tweet id) 
if request.method -- 'POST': 
form = TweetForm(request.POST, instance-tweet) 
if form.is_validQ): 
new tweet = form.save(commit-False) 
new tweet.state - 'pending' 
new tweet.save() 
send review email() 
return HttpResponseRedirect(' /post/thankyou') 
else: 
form = TweetForm(instance-tweet) 
return direct to template(request, 'post tweet.html', 
{'form': form }) 


def send_review_email(): 
subject = ‘Action required: review tweet' 
body = ('A new tweet has been submitted for approval. 
"Please review it as soon as possible.') 
send_mail(subject, body, settings.DEFAULT_FROM_EMAIL, 
[settings .TWEET_APPROVER_EMAIL] ) 


def thank you(request): 
tweets in queue - Tweet.objects.filter( 
state='pending').aggregate(Count('id')).values() [0] 
return direct to template(request, 'thank you.html', 
('tweets in queue': tweets in queue]) 


& 1—104$ 

这 里 只 有 基本 的 导入 语句 通过 这 些 语 句 ， 引 入 所 需 的 Django 功能 。 
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在 导入 语 名 之后， 根据 Tweet 实体 定义 了 TweetForm. TweetForm 中 只 含有 text 和 
author email 字段 ， 剩 下 的 用 户 不 可 见 。 该 类 还 指定 text 字段 应 该 作为 HTML 文本 域 〈 即 多 














行文 本 框 ) 部 件 显 示 ， 而 不 是 单行 较 长 的 文本 域 。 这 个 表单 定义 会 在 post_tweet() 方 法 中 用 到 。 
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当 访 问 /post 或 /post/edit/X 这 样 的 URL 时 , 调用 post_tweet() 方 法 。 在 前 面 的 URL 配置 文 
件 中 定义 了 这 个 行为 。 这 个 方法 完成 了 任务 的 /4， 如 图 11-28 所 示 。 





没有 定义 tweet_id 


请 求 是 GET， 不 是 发 布 表单 显示 空 的 TweetForm 


使 用 TweetForm 中 提交 的 
用 户 单 击 表单 中 的 提交 按钮 数据 ， 创 建新 的 Tweet， 
时 ， 请 求 是 POST 保存 进 数据 库 。 将 用 户 
重 定向 到 感谢 页 面 





















































定义 了 tweet_id 


显示 TweetForm， 其 中 含 
有 根据 tweet_id 从 推 文 获 
取 的 数据 


用 TweetForm 提 交 的 数据 ， 
在 给 定 tweet_id 的 数据 库 中 
更 新 推 文 。 将 用 户 重 定向 
到 感谢 页 面 





图 11-28 ”post_tweet0 方 法 的 行为 





用 户 从 图 11-28 上 面 的 方 框 开始 ， 通 过 单 击 表单 的 submit 按钮 向 下 移动 。 这 个 用 例 和 让 


语句 的 这 种 模式 在 用 于 处 理 表单 的 Django 视图 方法 中 很 常见 。 当 所 完成 了 该 方法 中 所 有 主要 
处 理 流程 后 ， 它 会 调用 post_tweet.html 模板 ， 并 将 TweetForm 实例 传递 过 去 。 同 样 ， 注 意 通 
过 调用 send_review_email() 方 法 向 审核 者 发 送 一 封 电子 邮件 。 如 果 没 有 访问 邮件 服务 器 的 权 
限 ， 且 没有 在 设置 文件 中 设置 过 邮件 服务 器 ， 那 么 需要 移 除 这 一 行 。 

这 一 块 代码 还 提供 了 前 面 没 见 过 的 新 功能 ， 即 get object or 4040 人 快捷 方法 。 这 个 方法 可 

























































































能 有 些 难 懂 ， 但 开发 者 经 常会 


— 





























抛 出 一 个 HTTP 404 fie GRA IG, SE HORT gd 















































户 ， 此 时 会 在 浏览 器 中 获得 这 个 错误 ， 无 论 用 户 是 出 于 恶意 还 是 其 他 原因 。 
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j 到 这 个 方便 的 方法 。 该 方法 将 一 个 数据 模型 类 和 一 个 主键 作 
为 参数 ， 尝 试 获取 一 个 含有 给 定 ID 的 对 象 。 如 果 找 到 该 对 象 , 将 其 赋值 给 tweet 变量 。 和 否则 ， 


判 不 遵循 规则 、 手 动 修改 URL 的 用 









































send_review_email(0 方 法 是 一 个 简单 的 辅助 函数 ,用 来 在 提交 需要 审核 的 新 # 
推 文 更 新 后 ， 癌 管理 者 发 送 电 子 邮件 通知 。 该 方法 使 用 了 Django 的 send_email(O 方 法 ， 

























































































send_email0 使 用 设置 文件 中 提供 的 服务 器 和 凭证 信息 发 送 电子 邮件 。 
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当 用 户 提交 了 TweetForm 后 ， 会 把 他 重 定向 到 /post/thankyou/， 此 时 会 调用 











X, 或 已 有 






































thank_you() 
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方法 。 该 方法 使 用 Django 内 置 的 数据 访问 功能 来 查询 数据 库 中 当前 处 于 pending 状态 的 Tweet 











对 象 。 具 有 关系 数据 库 背 景 的 用 户 毫 无 疑问 意识 到 Django ORM 执行 了 SQL 命令 ， 例 如 ， 
SELECT COUNT(id) FROM Tweet WHERE state="pending"。ORM 的 好 处 是 不 懂 SQL 的 用 户 

















































































































可 以 直接 使 用 对 象 绑 定 的 方法 来 执行 这 里 见 到 的 SQL 语句 。 在 这 里 ，ORM 神奇 地 帮助 开发 


者 执行 了 SQL 相关 操作 。 









































当 获 取 了 pending 状态 的 推 文 后 ， 应 用 调用 thank_you.html 模板 ， 并 将 所 有 这 样 的 推 文 
发 送 过 去 。 如 图 11-30 所 示 ， 如 果 有 若干 待 审 核 推 文 ， 则 模板 会 显示 一 些 信 息 。 示 例 11-15 






































和 示例 11-16 显示 了 poster 应 用 使 用 的 模板 文件 。 




















示例 11-15 ”提交 表单 的 模板 〈post_ tweethtml) 


















































T poster 应 用 的 提交 表单 ， 内 容 不 多 ， 因 为 大 部 分 任 











FH TweetForm 模型 处 理 了 。 

















1 «html» 

2 «body» 

3 «form action="" method="post">{% csrf token 96) 
4 <table>{{ form }}</table> 

5 <input type="submit" value="Submit" /> 

6 </form> 

7 </body> 

8 </html> 


示例 11-16 ”提交 之 后 的 thank_you() 模 板 (thank_you.html) 













































































T poster 应 用 的 “thank_you” 表 单 ， 提 供 了 告知 用 户 当前 所 处 位 置 的 逻辑 。 

1 «html» 

2 «body» 

3 Thank you for your tweet submission. An email has been sent 
4 to the assigned approver. 

5 «hr» 

6 {% if tweets in queue > 1 %} 

7 There are currently {{ tweets in queue }} tweets waiting 
8 for approval. 

9 {% else %} 

10 Your tweet is the only one waiting for approval. 

11 {% endif %} 

12 </body> 


13 </html> 








post tweet.html 模板 很 简单 ， 它 只 在 HTML 表格 中 显示 表单 ， 并 在 表格 下 方 添加 提交 按 
钮 。 与 前 面 示例 11-15 中 用 于 blog 应 用 中 表单 的 模板 相 比 ， 这 个 模板 几乎 可 以 重用 。 重 用 当 
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然 应 该 受到 鼓励 ， 但 分 享 HTML 超过 了 这 个 范畴 。 

































































图 11-29 显示 了 模板 的 输出 ， 它 表示 用 户 试图 填写 一 条 推 文 的 输入 表单 。 接 下 来 会 看 到 
在 用 户 提交 推 文 之 后 生成 “thanks for your submission” 页 面 的 模板 ， 如 图 11-30 所 示 。 
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60.0 [C] tweet_approve.momander.y = VE — 


© OM 








Check out our everyday low prices! 
Text: 





Author email: ben@gmail.com 


( Submit ) 




















图 11-29 用 于 提交 新 推 文 的 表单 ， 位 于 /post 页 面 下 























Thank you for your tweet submission. An email has been sent to to the assigned 
approver. 


There are currently 3 tweets waiting for approval. 








 —————————iÓ€ 
Fd 11-30 ”感谢 页 面 ， 在 提交 新 推 文 之 后 显示 














11.16.6 ”审核 推 文 


现在 已 经 完成 了 poster MH, 到 了 介绍 approver 应 用 的 时 候 。 文件 myproject/approver/urls.py 
调用 myproject/apporver/views.py 中 的 list_tweets() 和 review_tweet(0 方 法 。 完 整 的 文件 见 





示例 11-17。 


示例 11-17 approver 应 用 的 视图 函数 (views.py) 























pi 


oo — D$ UA 4 oU rH — 


里 含有 approver 应 用 的 核心 功能 ， 包 括 表单 











显示 带 审核 推 文 ， 以 及 帮助 处 理 决定 。 














# approver/views.py 

from datetime import datetime 

from django import forms 

from django.core.mail import send mail 

from django.core.urlresolvers import reverse 


from django.contrib.auth.decorators import permission required 


from django.http import HttpResponseRedirect 
from django.shortcuts import get object or 404 
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from django.views.generic.simple import direct to template 
from twython import Twython 

from myproject import settings 

from myproject.poster.views import * 

from myproject.poster.models import Tweet, Comment 


Qpermission required('poster.can approve or reject tweet', 
login ur12'/1login') 
def list tweets(request): 
pending tweets - Tweet.objects.filter(state- 
'pending').order by('created at') 
published tweets - Tweet.objects.filter(state- 
'published').order by('-published at') 
return direct to template(request, 'list tweets.html', 
{'pending_tweets': pending tweets, 
'published tweets': published tweets]) 


class ReviewForm(forms.Form): 

new comment = forms.CharField(max length-300, 
widget=forms.Textarea(attrs={'cols': 50, 'rows': 6}), 
required-False) 

APPROVAL CHOICES - ( 
C'approve', 'Approve this tweet and post it to Twitter'), 
('reject', 
'Reject this tweet and send it back to the author with your 


comment'), 


approval = forms.ChoiceField( 
choices=APPROVAL_CHOICES, widget=forms.RadioSelect) 


@permission_required('poster.can_approve_or_reject_tweet', 
login_url='/login') 
def review_tweet(request, tweet_id): 
reviewed_tweet = get_object_or_404(Tweet, id=tweet_id) 
if request.method == 'POST': 
form = ReviewForm(request. POST) 
if form.is_validQ): 
new comment = form.cleaned data['new comment'] 
if form.cleaned data['approval'] == 'approve': 
publish tweet(reviewed tweet) 
send approval email(reviewed tweet, new comment) 
reviewed tweet.published at - datetime.now() 
reviewed tweet.state - 'published' 
else: 
link = request.build absolute uri( 
reverse(post tweet, args-[reviewed tweet.id])) 
send rejection email(reviewed tweet, new comment, 
link) 
reviewed tweet.state - 'rejected' 
reviewed tweet.save() 
if new comment: 
c = Comment(tweet-reviewed tweet, text-new comment) 
c.save() 
return HttpResponseRedirect('/approve/') 
else: 
form = ReviewForm() 
return direct to template(request, 'review tweet.html', { 
'form': form, 'tweet': reviewed tweet, 
'comments': reviewed tweet.comment set.all())) 
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68 def send approval email(tweet, new comment): 


body = ['Your tweet (%r) was approved & published on Twitter. 
96 tweet.text] 
if new comment: 
body.append(C 
"The reviewer gave this feedback: %r.' % new comment) 
send mail('Tweet published', '%s\r\n' % ' '.joinC 
body), settings.DEFAULT FROM EMAIL, [tweet.author email]) 


77 def send rejection email(tweet, new comment, link): 


body = ['Your tweet (%r) was rejected.' % tweet.text] 
if new_comment: 
body. append( 
"The reviewer gave this feedback: %r.' % new comment) 
body.append('To edit your proposed tweet, go to %s.' % link) 
send mail('Tweet rejected', '%s\r\n' 96 (' '.joinC 


UN 


body), settings.DEFAULT FROM EMAIL, [tweet.author email])) 


86 def publish tweet(tweet): 


逐 行 解释 
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twitter = Twython( 
twitter token-settings.TWITTER CONSUMER KEY, 
twitter secret-settings.TWITTER CONSUMER SECRET, 
oauth tokenssettings.TWITTER OAUTH TOKEN, 
oauth token secret-settings.TWITTER OAUTH TOKEN SECRET, 


twitter.updateStatus(status-tweet.text.encode("utf-8")) 





在 所 有 导入 语句 之 后 ， 第 一 个 接触 的 是 list_tweets() 方 法 。 该 方法 的 任务 是 向 用 户 返 回 竺 


审核 和 已 发 布 推 文 的 列表 。 在 这 个 方法 头 上 面 是 @permission_required 装饰 器 。 该 装饰 器 通知 


Django 只 有 登录 且 拥 有 poster.can_approve_or_reject_tweet 权限 的 用 户 才 能 访问 该 方 沪 












































E. IX 





个 权限 是 在 myproject/poster/models.py 中 声明 的 自 定义 许可 权限 。 没 有 登录 的 用 户 ， 
但 没有 正确 权限 的 用 户 会 重 定向 到 /login 页 面 〈( 如 果 忘 记 了 装饰 器 是 什么 ， 可 以 阅读 Core 
Ptyhon Programming 或 Core Ptyhon Language Fundamentals 的 “函数 ”章节 )。 


















































或 登录 





如 果 用 户 有 正确 的 权限 , 则 会 执行 该 方法 。 其 使 用 Django 的 数据 访问 功能 来 获取 所 有 得 





审核 的 推 文 列 表 ， 














板 ， 并 让 模板 泻 
































以 及 所 有 已 发 布 的 推 文 列 表 。 接 着 将 这 两 个 列表 发 送 给 list_tweets 














染 结 果 。 更 多 内 容 参 见 下 面 的 模板 文件 。 
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接 下 来 ， 在 myproject/approver/views.py 中 定义 了 ReviewForm. {E Django 中 有 两 也 








.html 模 











方式 定 





义 表单 。 在 myproject/poster/views.py 中 ， 以 Tweet 实体 为 基础 定义 了 TweetForm。 这 里 作为 字段 


的 集合 定义 了 一 个 表单 ， 没 有 任何 底层 数据 实体 。 该 表单 用 于 让 管理 者 批准 或 拒绝 待 






































AINE 



































文 ， 其 中 没有 用 于 表示 审核 决定 的 数据 实体 。 表 单 使 用 一 个 选择 集合 CAPPROVAL CHOICES) 

















来 定义 审核 者 需 















































要 做 出 的 批准 /拒绝 选择 ， 并 用 一 组 单 选 按钮 显示 出 来 。 
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接 下 来 是 review_tweet() 方 法 〈 见 图 11-31)。 这 与 myproject/poster/views.py 文件 中 的 表单 
处 理 方法 类 似 ， 但 该 方法 假设 tweet id 总 是 存在 。 因 为 根本 无 法 审核 一 条 不 存在 的 推 文 。 





















































tweet id 已 定义 


说 请 求 M 1A 
ERR Omm 按照 ltweet_id 显 示 推 文 ， 随 后 是 一 个 空 的 ReviewForm 


用 户 单 击 表单 中 的 提交 按钮 | 如果 批 准 了 推 文 : 如 果 没 批准 推 文 : 
Twitter 上 发 布 推 文 ， 并 在 在 数据 库 中 更 新 Tweet 
数据 库 中 更 新 Tweet 的 状 的 状态 将 用 户 重 定向 
态 ， 将 用 户 重 定向 到 推 文 到 推 文 列表 页 面 
列表 页 面 i 














图 11-31 review_tweet0 方 法 中 的 表单 处 理 


















































代码 需要 从 表单 中 读 取 用 户 提交 的 数据 。 通 过 Django， 可 以 使 用 form.cleaned_data[] 数 
组 完成 这 个 任务 ， 该 数组 含有 用 户 通过 表单 提交 的 值 ， 这 些 值 已 经 转换 成 Python 数据 类 型 。 

注意 在 review_tweetO 视 图 函数 中 请 求 对 象 时 对 build_absolute_uri0 方 法 的 调用 方式 。 该 
方法 用 于 获取 编辑 推 文 表单 的 链接 。 该 链接 会 通过 拒 信 发 送 给 推 文 的 作者 ， 这 样 推 文 作者 可 
以 了 解 管理 者 的 反馈 并 记录 这 条 推 文 。build_absolute_uri0 方 法 针对 特定 方法 返回 对 应 的 
URL， 在 这 里 是 post tweet(). HLA URL 是 /poster/edi/X， 其 中 ，X 是 推 文 的 ID 。 为 什么 
不 仅仅 使 用 含有 该 URL 的 字符 串 呢 ? 
如 果 决 定 将 URL 改变 成 /poster/change/X, 则 需要 记 住 所 有 硬 编码 的 URL Sis C/poster/edit/X.) , 
并 将 其 更 新 到 新 的 URL. 这样 破坏 了 Django 幕后 的 DRY 原则。 关于 DRY 原则 和 Django 的 其 他 
设计 原则 ， 可 以 参见 http://docs.djangoproject.com/en/dev/misc/design- philosophies。 
刚刚 提 到 的 情况 与 在 /postthankyou 中 硬 编码 的 URL 不 同 ， 这 个 URL 没有 使 用 变量 。 在 感 
谢 页 面 中 : 1) 该 页 面 只 有 一 个 ; 2) 页 面 不 会 改动 ; 3) 没有 需要 关联 的 视图 函数 。 为 了 不 对 URL 
进行 硬 编码 ， 需 要 使 用 另 一 个 工具 ， 在 硬 编码 URL 的 地 方 使 用 django.core.urlresolvers.reverse()。 
这 个 方法 做 了 些 什么 ? 通常 会 从 一 个 URL 开始 ， 根 据 请 求 找 到 一 个 分 配 到 的 视图 函数 。 在 这 种 
情况 下 ， 通 过 给 定 的 视图 函数 构建 URL《〈 就 如 同 这 个 函数 的 名 称 )， 视 图 函数 与 其 他 参数 一 起 传 
递 给 reverse0， 然 后 返回 一 个 URL。 关 于 使 用 reverse0 的 更 多 示例 可 以 阅读 Django 的 教程 ， 参 
JL https://docs.djangoproject.com/en/dev/intro/tutorial04/#write-a-simple-form. 
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send_approval_email() 和 send_rejection_email() 这 两 个 辅助 方法 ， 用 来 使 用 Django 的 
send mail() 函数 向 推 文 的 作者 发 送 邮件 。 同 样 ， 在 无 法 访问 邮件 服务 器 的 情况 下 从 
review_tweetO 中 移 除 对 这 些 方法 的 调用 。 
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publish_tweetO 同 样 是 辅助 方法 。 其 调用 Twython 包 中 的 updateStatus() 方 法 来 向 Twitter 
发 布 新 的 推 文 。 注 意 ， 其 中 使 用 前 面向 settings.py 文件 中 添加 的 4 个 Twitter 凭证 信息 。 另 外 ， 
使 用 UTF-8 对 推 文 编码 。 

现在 来 看 模板 文件 ， 首 先 来 看 登录 页 面 之 后 的 状态 页 面 ， 因 为 后 者 比 前 者 更 有 趣 。 示 例 
11-18 显示 了 状态 页 面 使 用 的 模板 。 用 户 的 输出 页 面 主 要 分 成 两 部 分 : 一 组 需要 审核 的 推 文 ; 
以 及 一 组 审核 过 并 已 发 布 的 推 文 。 


















































































































































































































































示例 11-18 用 于 显示 推 文 状态 的 模板 list tweets.htmD 
T poster 应 用 的 状态 页 面 的 模板 主要 有 两 个 部 分 ， 待 审核 和 已 发 布 推 文 。 





















































1 «html» 

2 «head» 

3 «title» 

4 Pending and published tweets 
5 «/title» 

6 «style type-text/css» 

7 tr.evenrow { 

8 background: #FFFFFF; 

9 

10 tr.oddrow { 

11 background: #DDDDDD; 

12 H 

13 «/style» 

14 «/head» 

15 <table> 

16 <tr> 

17 <td colspan=2 align=center> 
18 <b>Pending tweets</b> 

19 </td> 

20 </tr> 

21 <tr> 

22 <td> 

23 Tweet text 

24 </td> 

25 <td> 

26 Submitted 

27 </td> 

28 </tr> 

29 {% for tweet in pending_tweets %} 
30 «tr class="{% cycle 'oddrow' 'evenrow' %}"> 
31 <td> 

32 <a href="/approve/review/{{ tweet.id }}">{{ tweet.text }}</a> 


33 </td> 
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34 
35 
36 
37 
38 
39 
40 
4l 
42 
43 


«td» 
(i tweet.created at|timesince }} ago 
«/td» 
«/tr» 
{% endfor %} 
</table> 


<hr> 
<table> 
<tr> 


<td colspan=2 align=center> 
<b>Published tweets</b> 
</td> 


</tr> 
<tr> 


<td> 
Tweet text 
</td> 
<td> 
Published 
</td> 


</tr> 


{% for tweet in published_tweets %} 


«tr class="{% cycle 'oddrow' 


<td> 


{{ tweet.text }} 


</td> 
<td> 
{{ tweet.published_at|timesince }} ago 


< 


/td> 


</tr> 
{% endfor %} 
</table> 


</html> 








'evenrow' %}"> 


这 个 模板 很 有 趣 , 这 是 第 一 个 含有 循环 的 模板 , 其 遍历 pending_tweets 和 published_tweets, 
接着 将 每 条 推 文 泻 染 到 表格 中 的 一 行 里 ， 使 用 cycle 结构 让 表格 隔行 用 灰色 显示 ， 如 图 11-32 














所 示 。 同 时 还 让 每 条 待 审 核 的 



































文 的 文本 连接 到 /approve/review/X 页 面 , X 是 推 文 的 ID 。 最 后 ， 














使 用 Django 的 timesince 过 滤器 来 显示 推 文 创建 到 现在 的 时 间 , 而 不 是 显示 原始 的 日 期 和 时 间 。 


这 样 让 列表 稍微 容易 阅读 ， 也 让 多 时 区 的 用 户 看 起 列表 来 更 加 
当 审核 者 选择 了 一 条 潜在 的 推 文 # 























图 。 如 图 11-33 


所 示 。 






















































































合理 。 
文 并 进行 决策 时 他 们 会 看 到 单独 用 于 审核 这 条 推 文 的 视 












































用 于 演 染 竺 审核 推 文 的 表单 的 模板 是 review_tweethtml， 见 示例 11-19. 
如 果 用 户 在 没有 登录 或 没有 正确 的 权限 的 情况 下 发 送 login/ 这 个 URL 会 怎么 样 ? fi 





FF 





myproject/urls.py "P, Django 会 运行 方法 django.contrib.auth.views.login 中 的 代码 ， 这 个 方 





显示 了 这 个 应 ) 


法 是 Django ERU. } 





























J 使 用 的 
































1 了 解 Django ul 





Chttps://docs.djangoproject.com/en/dev/topics/auth/ ) . 


来 处 理 登录 问题 。 所 要 做 的 就 是 编写 login.html 模板 。 示 例 11-20 
fa] RAM. FRALEY 


FE 系统 ， 可 以 查看 官方 文档 
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Iscream, you scream, we all scream for ice cream. 


Masluchowice [maglux2 vítse] is a settlement in the district of Gmina Biecz, within 
Gorlice County, Lesser Poland Voivodeship. 

Louis Lambert is a French novel by Honoré de Balzac (1799-1850), included in the 
Études philosophiques section. 





11-32 一 系列 待 发 和 已 发 布 的 推 文 











Proposed tweet: Every day is a good day with Django. 
Author: 


4 





e (9 Approve this tweet and post it to Twitter 
Approval: © © Reject this tweet and send it back to the author with your comment 





History 








图 11-33 ”批准 待 发 推 文 
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示例 11-19 myproject/templates/review_tweet.html 






































该 模板 用 于 poster 应 用 的 推 文 审核 页 面 。 

















1 «html» 

2 «body» 

3 «form action="" method="post">{% csrf token 96) 
4 «table» 

5 «tr» 

6 «td» 

7 «b»Proposed tweet:</b> 

8 «/td» 

9 «td» 

10 <b>{{ tweet.text }}</b> 

11 «/td» 

12 «/tr» 

13 «tr» 

14 «td» 

15 «b»Author:«/b» 

16 «/td» 

17 «td» 

18 <b>{{ tweet.author email }}</b> 
19 «/td» 

20 «/tr» 

21 (1 form.as table }} 

22 «/table» 

23 «input type="submit" value="Submit" /> 
24 </form> 

25 <hr> 

26 <b>History</b> 

27 <hr> 

28 {% for comment in comments %} 

29 <i>{{ comment.created_at|timesince }} ago:</i> 
30 {{ comment.text }} 

31 <hr> 

32 {% endfor %} 

33 </body> 

34 </html> 


示例 11-20 myproject/templates/login.html 


























这 是 poster 应 用 登录 页 面 的 模板 ， 它 利用 了 Django 的 验证 系统 。 


























«html» 


1 

2 {% if form.errors %} 

3 Your username and password didn't match. Please try again. 
4 {% endif %} 

5 

6 <form method="post" 

7 action="{% url django.contrib.auth.views. login %}"> 
8 {% csrf_token %} 

9 <table> 

10 <tr> 

11 <td>{{ form.username.label tag }}</td> 


12 <td>{{ form.username }}</td> 
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13 «/tr» 

14 «tr» 

15 <td>{{ form.password.label tag }}</td> 
16 <td>{{ form.password }}</td> 

17 </tr> 

18 </table> 

19 

20 <input type="submit" value="login" /> 

21 <input type="hidden" name="next" value="{{ next }}" /> 
22 </form> 

23 </html> 


it FA TweetApprover 














现在 所 有 组 件 都 完成 了 ， 返 回 URLconf， 取 消 前 面 对 所 有 添加 的 行为 的 注释 。 如 果 还 没 
有 创建 可 以 批准 或 拒绝 推 文 的 用 户 ， 那 么 请 现在 创建 。 接 着 通过 Web 浏览 器 跳 转 到 /post 下 ， 
(在 你 的 域 中 ) 创建 一 条 新 推 文 。 最 后 ， 跳 转 到 /approve 下 ， 批 准 或 拒绝 这 条 推 文 。 当 批准 一 
条 推 文 后， 访问 Twitter 的 页 面 ， 验 证 这 条 推 文 是 否 已 发 布 。 

读者 可 以 从 本 书 的 配套 网 站 上 下 载 项 目的 完整 代码 : http://corepython.com。 
































































































































11.17 资源 














表 11-4 FH J 与 本 章 涵 盖 的 主题 和 项 目 相 关 JV 
表 11-4 其 他 Web 框架 和 资源 






































Django http://djangoproject.com 
Pyramid & Pylons http://pylonsproject.org 
TurboGears http://turbogears.org 
Pinax http://pinaxproject.com 
Python Web Frameworks http://wiki.python.org/moin/WebFrameworks 
Django-nonrel http://www.allbuttonspressed.com 
virtualenv http://pypi.python.org/pypi/virtualenv 
Twitter Developers http://dev.twitter.com 
OAuth http://oauth.net 


11.18 总 结 








读者 刚刚 接触 到 了 Django 的 冰山 一 角 。 与 Python 相 比 ，Web 开发 的 范畴 非常 广 。 有 许 
多 地 方 需 要 探索 ， 所 以 建议 读者 阅读 优秀 的 Django 文档 ， 特 别 是 htep://docs.djangoproject. 
com/en/ dev/intro/tutorialO1 中 的 教程 。 读 者 还 可 以 了 解 Pinax 中 可 重用 的 插件 式 应 


























也 
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另外 ， 读 者 可 以 通过 Python Web Development with Django 一 书 继续 深入 了 解 Django。 现 在 
还 可 以 了 解 其 他 Python Web 框架 ， 如 Pyramid、TurboGears、web2py， 或 其 他 更 轻 量 级 的 框架 ， 
W Bottle, Flask 和 Tipfy。 另 一 个 方向 是 可 以 开始 探索 云 计算 。 第 12 章 将 对 其 进行 介绍 。 


















































11.19 练习 


Web 框架 


11-1 复习 术语 。CGI 和 WSGI 是 什么 意思 ? 

11-2 复习 术语 。 纯 CGI 主要 有 哪些 问题 ， 为 什么 当今 Web 生产 环境 中 的 服务 很 少 用 到 

ali CGI? 

11-3. 复习 术语 。WSGI 解决 了 哪些 问题 ? 

11-4 Web 框架 。Web 框架 的 目的 是 什么 ? 

11-5 Web 框架 。Web 开发 使 用 的 框架 一 般 遵 循 MVC 模式 。 描 述 这 三 个 组 件 。 

11-6 Web 框架。 举例 说 出 Python 的 一 些 全 栈 Web 框架 。 使 用 其 中 的 每 个 框架 创建 一 个 
简单 的 “Hello World” 应 用 。 记 录 每 个 框架 开发 和 执行 时 的 异同 。 

11-7 Web 框架 。 对 不 同 的 Python 模板 系统 做 一 些 研究 。 创 建 网 络 或 电子 表格 来 比较 
中 的 异同 。 要 确保 含有 下 面 的 语法 项 比较 : a) 显示 数据 变量 ，b) 调用 函数 或 方 

ik. c) RAA Python 代码 ，d) 执行 循环 ，e) if-elseif-else 条 件 语句 ， 以 及 f) 模 

板 继 承 。 


Django 


11-8 ”背景 。Django 框架 在 何 时 何 地 创建 ?其 主要 目标 是 什么 ? 
11-9 术语 。Django 项 目 和 Django 应 用 之 间 有 什么 区 别 ? 
11-10 术语 。Django 没有 用 MVC， 而 是 使 用 MTV (Model-Template-View)， 比 较 MTV 
和 MVC 的 异同 。 
11-11 配置 。Django 开发 者 在 哪里 创建 数据 库 设 置 ? 
11-12 配置 ，Django 可 以 在 下 面 的 数据 上 运行 : 
a) 关系 数据 库 ; 
b) 非 关 系数 据 库 ; 
c) ai b; 
d) 两 者 都 不 是 。 
11-13 配置 。 在 http://djangoproject.com 中 下 载 并 安装 Django Web 框架 (如 果 使 用 的 不 
是 Windows AZ, ib FAX SQLite， 因 为 针对 Windows 的 Python 2.5+ 版 本 自 带 
SQLite ) 。 
































































































































































































































































































































11-14 
11-15 


11-16 
11-17 
11-18 
11-19 


11-20 


11-21 


11-22 


11-23 


11-24 


11-25 
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a) 执行 “django-admin.py startproject helloworld”， 启 动 项 目 ， 接 着 通过 “cd 
helloworld; python ./manage.py startapp hello" JH 2/]]| V Hl. 
b) 编辑 helloworld/hello/views.py， 它 包含 下 面 的 代码 。 








from django.http import HttpResponse 
def index (request): 
return HttpResponse('Hello world!') 


c) 在 helloworld/settings.py 中 ， 向 INSTALLED. APPS 变量 元 组 中 添加 “hello”。 
d) 在 helloworld/urls.py， 将 下 面 注 释 掉 的 行 
































# (r'helloworld/', include('helloworld.foo.urls')), 
(替换 成 这 一 行 )。 
LÀ 


(r'^$', 'hello.views.index'), 





e) 执行 “python ./manage.py runserver”， 访 问 http://localhost:8000， 来 确认 代码 
正常 工作 ， 在 浏览 器 中 显示 了 “Hello world!”。 并 尝试 将 输出 改 为 其 他 字符 串 。 
配置 ，URLconf 是 什么 ? 一 般 在 哪里 找到 ? 

教程 。 学习 Django 教程 的 四 个 章节 , 参见 http:docs.djangoproject.com/en/devintro/ 
tutorial01 。 和 警告 : 不 要 只 复制 该 网 页 的 代码 。 和 希望 读 者 能 够 对 应 用 进行 修改 。 添 
加 原先 不 存在 的 功能 。 
TH. Django admin 应 用 是 什么 ? 如 何 启用 它 ? 为 什么 admin 很 有 用 ? 
工具 。 能 否 在 不 使 用 admin 或 Web 浏览 器 的 情况 下 测试 应 用 的 代码 ? 

术语 。 c Eun 为 什么 Django 含有 安全 机 制 来 阻止 这 种 尝试 ? 
模型 。 列 举 出 你 可 能 用 到 的 5 个 模型 类 型 ， 以 及 这 些 模型 一 般 会 使 用 到 什么 类 型 
的 数据 。 

模板 。 在 Django 模板 中 ， 什 么 是 标签 ?另外 ， 块 标签 和 变量 标签 之 间 有 什么 
别 ? 如 何 区 分 这 两 种 类 型 的 标签 ? 

模板 。 描 述 如 何 通 过 Django 实现 模板 继承 。 

模板 。 在 Django 模板 中 ， 过 滤器 是 什么 ? 

视图 。 什么 是 通用 视图 ? 为 什么 需要 使 用 通用 视图 ? 是 否 在 有 些 情况 下 不 需要 使 
用 通用 视图 ? 
表单 。 描 述 Django 中 的 表单 ， 包 括 工作 方式 、 位 于 代码 中 的 位 置 〈 从 数据 模型 
到 HTML LB) 

表单 。 讨 论 模型 表单 ， 以 及 其 用 途 。 
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Django 博客 应 用 
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模板 。 在 BlogPost 应 用 中 的 archive.html 模板 里 遍历 每 篇 博文 ， 并 显示 给 用 户 。 
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11-27 模型 。 在 这 个 应 用 


11-28 


11-29 





添加 一 个 针对 特殊 情况 的 测试 , 即 没 有 发 布 任何 一 篇 博文 , 此 时 显示 一 条 特殊 的 












































， 对 时 间 恰 做 了 太 多 的 工作 。 有 一 种 方式 能 让 Django 在 创 
& BlogPost 对 象 时 自动 添加 时 间 惟 。 找 到 并 实现 这 种 方式 ， 移 除 
blog.views.create blogpost()fl blog.tests.BlogPostTest.test_obj_create() FF ib X V E. 
时 间 惟 的 代码 。 此 时 是 否 同 样 要 改变 blog.tests.BlogPostTest.test post. create) IT 
代码 ? 提示 : 可 以 在 下 一 章 中 看 Google App Engine 是 如 何 完成 的 。 

通用 视图 。 抛 弃 archive0 视 图 函数 ， 该 函数 使 用 render. to_response0， 将 应 用 转换 成 
使 用 通用 视图 。 只 须 完全 移 除 blog/views.py 中 的 archived) 函数 ， 同 时 也 将 
blog/templates/archive.html 移动 到 blog/templates/blogpost/blogpost_list.html 中 。 研 
iX list_detail.object_listO) 通 用 视图 ， 然 后 直接 在 应 用 的 URLconf 中 调用 它 。 这 里 
需要 创建 “queryset” 和 “extra_context” 字典 ， 用 来 将 自动 生成 的 BlogPostForm() 
对 象 和 所 有 博客 项 通过 通用 视图 传 给 模板 。 

模板 。 前 面 介绍 了 Django 模板 过 滤器 (并 在 例子 中 使 用 了 upper()). Œ BlogPost 
应 用 中 的 archive.html (或 blogpost_list.html) 模板 中 添加 另 一 行 用 于 显示 数据 库 
博文 总 数 的 代码 ， 在 显示 之 前 ， 使 用 过 滤器 只 显示 最 近 的 10 篇 。 









































































































































































































































































































































11-30 表单 .通过 使 用 ModelForm 自动 创建 的 表单 对 象 ,就 无 法 指定 正文 文本 区 域 ( rows = 3, cols 


11-31 
11-32 


11-33 


11-34 


= 60 ) 的 行 和 列 属 性 ， 正 如 同 前 面 对 Form 和 forms.CharField 的 HTML 部 件 做 的 那 
样 。 其 默认 的 是 rows = 10，cols = 40， 如 图 11-20 所 示 。 如 何 指定 3 行 和 60 列 呢 ? 
提示 ， 可 以 参考 这 篇 文档 http://docs.djangoproject.com/en/dev/topics/forms/ 
modelforms/#overr iding-the-default-field-types-orwidgets 

模板 。 为 博客 应 用 创建 一 个 基 模 板 ， 修 改 所 有 已 有 模板 ， 使 用 模板 继承 。 

TUR. Pj Django 文档 中 关于 静态 文件 (HTML、CSS、JS 等 ) 的 内 容 ， 改 善 
博客 应 用 的 外 观 。 如 果 这 样 着 手 有 些 困难 ,可 以 先 尝 试 一 些小 的 设置 ， 直到 可 以 
处 理 复杂 的 内 容 。 

<style type="text/css"> 

body { color: #efd; background: #453; padding: 0 5em; margin: 0 } 

hl { padding: 2em lem; background: 4675 } 

h2 ( color: #bf8; border-top: lpx dotted #fff; margin-top: 2em } 

p { margin: lem 0 } 

</style> 

CRUD. 让 用 户 可 以 编辑 或 删除 博文 。 可 以 考虑 添加 额外 的 时 间 戳 字段 来 表示 编辑 
时 间 ， 而 用 已 有 的 时 间 惟 表示 创建 时 间 。 也 可 以 在 博文 编辑 或 删除 时 直接 修改 已 

A HSI Te] aX. 

游标 和 页 码 。 显 示 最 新 的 10 篇 博文 很 好 ， 但 让 用 户 通 过 页 码 浏览 较 老 的 博文 就 

更 好 了 。 在 应 用 中 使 用 游标 并 添加 页 码 。 
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KBE 
存 ? 为 什么 ? 
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11-37 





交互 。 向 应 有 








下 次 访问 数 


用 户 。 让 站 点 支持 多 个 博客 。 每 个 
添加 另 一 个 功能 ， 使 得 
者 和 博客 的 作者 都 会 收 到 一 封 含 有 


缓存 。 在 下 一 章 的 Google App Engine 博客 ， 
居 库 进行 相似 的 操作 。 那 么 
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5401 
羊 细 信 息 的 电子 邮件 。 
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11-38 业务 逻辑 。 除 了 前 面 发 送 电子 邮件 上 
文 之 前 先 对 博文 进行 审核 。 
Django Twitter App 


11-39 ”模板 。build_absolute_uri0) 方 法 
HTML 模板 中 依然 有 一 些 硬 编码 URL 路 径 。 这 些 路 径 在 哪 
人 码 URL? 提示 :阅读 这 篇 文章 :http://docs.djangoproject.com/en/dev/ref/templates/ 















































builtins/#std: templatetag-url。 
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TweetApprover. 


] 户 应 该 获得 一 组 博客 页 面 。 
建 了 新 的 博客 项 时 ，Web 站 点 的 管理 


Web į 
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， 部 署 Memcache 来 缓存 对 象 。 所 以 
否 在 这 个 Django 应 


























j 中 需要 


到 组 












































2&2], Æ Twitter 应 





中 让 管理 者 在 发 布 博 














j 来 消除 URL 配置 文件 中 的 硬 编码 URL。 但 在 

















里 ?如 何 移 除 这 些 硬 











模板 。 通 过 添加 CSS 文件 并 将 其 引入 到 HTML 模板 中 ， 





用 户 。 目 前 
没有 添加 
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, fi 
EXU 

















F 何 用 户 不 











j 登 录 就 可 以 发 布 新 


























民 的 月 


HP Je AREE Ce 














11-42 用户 ,在 强迫 














用 户 





Z% 
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预先 用 登录 月 
pi: 
缓存 。 当 | 
他 会 
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M, 


及 


例如 ， 
E 绝 时 间 。 











Comments Kas KH 


HP 


I] 83 ^I LTT e f 
登录 和 提交 报告 。 


iL 











laa 


KS 



































录 后 才能 发 布 新 推 文 后 , 如 果 月 J 
包子 邮件 地 址 填充 Author email 字段 。 提 示 : 可 以 阅读 这 篇 
http://docs.djangoproject.com/en/1 .2/topics/auth 。 
户 访 问 /approve 时 ,缓存 推 文 列表 。 当 
] 户 回 到 这 个 页 面 时 ,看 到 的 是 





有 户 的 个 


以 此 来 美化 


























， 让 未 登录 用 户 或 





























人 资料 中 有 上 








Ip 


HH B 
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JP diti 





























当 推 文 改 变 状态 











拒绝 一 条 推 文 后 ， 向 其 添加 一 个 Comment 指出 
更 新 后 ， 添 加 另 一 个 Comment。 发 布 后 ， 添 加 另 一 个 











推 文 内 容 





对 间 和 审核 
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E 文 的 审 





核 页 面 添加 第 





























删除 提交 的 推 文 。 可 以 通过 对 数据 库 中 的 对 


时 ， 向 其 添加 











者 。 





三 个 选项 ， 除 了 接受 或 








PY, reviewed_tweet.delete(). 
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交互 。 当 员工 提交 了 一 条 新 推 文 时 ， 则 向 管理 者 发 送 一 封 ! 








仅 说 明了 有 
可 以 直接 单 
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EAE 


| 象 调用 delete 




















或 拒绝 了 一 篇 推 文 时 ， 
刷新 过 的 非 缓存 页 面 。 








ArH Comments 来 创建 审核 流 




















已 被 拒绝 ， 以 


E 绝 ， 还 让 审核 者 可 以 
方法 来 删除 这 个 对 象 ， 


























ae 

















文 需 要 审核 。 向 





























BT nf 
k 转 到 推 文 审核 页 面 的 链接 ， 以 便 批 ; 
myproject/approver/views.py 中 如 何 发 送 电子 邮 从 





























进行 比较 。 


Tug 





Fo 但 电子 邮件 仅 


F 中 添加 新 推 文本 身 , 还 有 一 个 让 管理 者 
FERES] 








E 绝 这 条 推 文 。 可 以 与 
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#125 云 计算 : Google App 





我 们 的 行业 正经 历 一 波 发 明 浪潮 ， 其 背后 的 主要 现象 是 云 。 但 没 人 能 知道 什么 是 云 ， 也 
不 知道 其 确切 含义 。 
Steve Ballmer，2010 年 10 月 





本 章 内 容 : 

。 简介 ; 

。 云 计 算 ; 

。 沙 盒 和 App Engine SDK; 

。 选择 一 个 App Engine 框架 ; 
e Python 2.7 文 持 ; 

e 5 Django 比较 ; 

。 将 “Hello World” 改 成 一 个 简单 的 博客 ; 
e 添加 Memchace 服务 ; 

。 静态 文件 ; 

。 添加 用 户 服务 ; 

e 远程 API Shell; 

e fa) 5 (Python 实现 ); 
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。 使 用 XMPP 发 送 即时 消息 ; 

。 处 理 图 片 ; 

© 任务 队列 《〈 非 定期 任务 ); 

e 使 用 Appstats 进行 分 析 ; 

e URLfetch 服务 ; 

。 问 与 答 CX Python KI); 

。 厂商 锁定 ; 

。 资源 。 
12.1 简介 

接 下 来 要 介绍 的 开发 系统 是 Google App Engine. App Engine 不 提供 类 似 Django If] 4f 
框架 (尽管 可 以 在 App Engine 中 运行 Django， 后 面 会 介绍 )， 这 是 一 个 开发 平台 ， 最 初 专注 
于 Web 应 用 (其 有 自己 的 微型 框架 , 即 webapp, 或 其 蔡 代 品 , 即 新 的 webapp2), 但 App Engine 
仍然 可 以 构建 通用 的 应 用 和 服务 。 

这 里 的 “通用 ”并 不 是 意味 着 任何 应 用 都 可 以 创建 并 移植 到 App Engine 中 ， 而 是 表示 需 
要 用 到 HTTP 的 网 络 应 用 ， 包 括 但 不 限于 Web 应 用 。 一 个 著名 的 非 Web 应 用 示例 就 是 面向 

户 的 移动 客户 端的 后 端 服务 。App Engine 属于 云 计算 的 范畴 ， 专 注 于 为 开发 者 提供 一 个 平 

台 ， 用 于 构建 并 托管 应 用 或 服务 的 后 端 。 在 实际 了 解 平 台 的 细节 之 前 ， 首 先 介绍 一 下 云 计 算 
的 生态 圈 ， 这 样 可 以 更 好 地 了 解 App Engine 的 适用 范围 。 
12.2 云 计算 

基于 Django、Pyramid， 或 TurboGears 的 应 用 都 由 供应 商 或 自己 的 电脑 运行 来 提供 服 
务 ， 而 Google App Egine 应 用 由 Google 运行 ， 作 为 云 计算 范畴 下 许多 服务 的 一 部 分 。 这 些 
服务 的 主要 前 提 是 公司 或 个 人 将 计算 架构 分 离 出 去 ， 如 实际 硬件 、 应 用 开发 和 执行 或 者 软 
件 托 管 。 如 果 使 用 云 计 算 ， 则 将 应 用 的 计算 、 托 管 、 服 务 等 任务 委托 给 其 他 公司 ， 不 再 需 
要 自己 完成 。 

这 些 服 务 只 能 通过 因特网 来 完成 ， 用 户 可 能 并 不 清楚 对 方 的 实际 物理 地 址 。 服 务 包 括 以 
应 用 使 用 的 原始 硬件 "到 应 用 的 所 有 内 容 ， 以 及 其 他 所 有 可 能 的 服务 ， 如 操作 系统 、 数 据 库 、 
文件 和 原始 的 磁盘 存储 、 计算、 通知 、 电 子 邮 件 、 即时 信息 、 虚拟 机 、 绥 存 ( 多 级 , 从 Memcahed 
到 CDN) 等 。 这 个 行业 中 有 许多 佼佼 者 ， 同 时 三 商会 继续 提供 新 的 服务 。 这 类 服务 一 般 通过 
订阅 或 使 用 次 数 来 付费 。 
o 术语 硬件 包括 物理 设备 〈 磁 盘 和 内 存 ) 、 电 源 设备 、 冷 却 设 备 、 网 络 设备 。 
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公司 通常 出 于 成 本 考虑 才 部 署 云 计 算 服 务 。 但 





来 判断 部 署 云 服务 是 否 
施 的 设备 ) ? 没关系 


创业 公司 的 合伙 人 必须 自 掏腰包 购买 这 样 














各 公司 的 需求 有 很 大 不 同 ， 所 以 要 分 别 调研 
于 明智。 一 个 创业 公司 能 负担 起 所 有 硬件 吗 〈 不 是 租用 数据 中 心 或 托管 设 

， 可 以 租用 亚马逊 的 计算 设备 ， 或 使 用 Google 的 存储 设备 。 过 去 ， 小 型 

的 设备 ， 而 现在 他 们 可 以 专注 于 应 用 的 业务 问题 。 



































大 公司 或 “财富 500 强 ” 公 司 的 情况 有 所 不 同 ， 他 们 有 足够 的 资源 ， 但 发 现 无 法 完全 利 





潜能 。 


用 到 所 有 潜能 
个 私有 云 服务 ， 或 者 


ite ZN 














这 些 公司 无 须 像 


共 云 外 包 其 他 部 分 〈 如 计算 、 

根据 自身 管理 方式 ， 部 署 云 服 务 的 公司 通常 必须 要 
别 协议 SLA) 以 及 承诺 。 很 明显 
安全 有 保障 ， 公 司 的 管理 团队 (如 果 有 ) 

















亚马逊 那样 创建 云 业务 〈 下 一 节 会 介绍 )， 只 须 在 内 部 创建 一 
构建 一 个 混合 云 ,用 私有 设备 处 理 敏 感 数据 ， 通 过 如 Google 或 亚马逊 这 
应 用 、 存 储 等 )。 



































关心 物理 存储 地 址 、 安 全 性 、 服 务 级 
显 ， 当 外 包 应 用 、 数 据 等 内 容 时 ， 公 司 希 望 能 确保 这 些 内 容 
能 够 在 任何 时 候 去 实地 查看 物理 存储 设备 。 当 满足 


























了 这 些 需求 后 ， 下 面 就 要 决定 需要 哪个 层次 的 云 计算 。 











12.21 云 计 算 服 务 的 层次 




















zit 


(Infrastructure-as-a-Service ), 即 提供 计 


磁盘 )、 计 算 。 





储 〈 通 常 是 


zx (Elastic Compute 


有 三 个 层次 。 图 12-1 显示 了 每 个 层次 , 以 及 对 应 层次 的 代表 产 





这 两 者 就 在 laas 层 












































品 。 最 低层 的 是 IaaS 
机 本 身 基 本 的 计算 能 力 (物理 形式 或 虚拟 形式 )、 存 
亚马逊 Web 服务 (Amazon Web Services, AWS) 提供 了 弹性 计算 


Cloud，EC2)， 以 及 简单 存储 系统 (Simple Storage System, S3) 服务 ， 


A 
























































fl. Google 也 提供 了 IaaS 存储 服务 ， 称 为 Google Cloud Storage. 
Google App Engine 作为 云 计算 的 中 间 一 层 ， 称 为 Paas (Platform-as-a-Service)。 这 一 层 

















为 用 户 的 应 用 提供 执行 平台 。 最 高 一 层 是 Software-as-a-Service (SaaS )。 在 这 一 层 ， 用 户 只 
须 简 单 地 访问 应 用 ， 这 些 应 用 位 于 本 地 ， 但 只 能 通过 因特网 访问 。Saag 的 例子 包括 基于 Web 











的 电子 邮件 服务 ， 如 Gmail、 


























Yahoo! Mail 和 Hotmail. 

















a Yahoo! Mail 
o NetSuite 


a Google Apps 
^ Salesforce 








a Google App Engine O Microsoft Windows Azure 
a Heroku ^ Red Hat OpenShift 
a VMware Cloud Foundry 9 Salesforce force.com 








o Amazon Web Services A 
72 Google (Storage. Prediction, BigQuery) 
o Rackspace Cloud 

a Joyent Cloud j 








有 ”图 片 来 源 : Gartner ADI Summit (2009 年 12 月 ) 


云 计 算 的 三 个 
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在 这 三 层 当 中 ，IaaS 和 SaaS 是 最 常见 的 ， 而 PaaS 则 没有 像 前 者 那样 引起 注意 。 不 过 情 
况 正 在 改变 ，PaaS 也 许 是 这 三 者 之 间 最 强大 的 。 通 过 PaaS， 可 以 免费 获得 IaaS， 但 PaaS ' 















































含有 许多 非常 服务 ， 自 行 维护 这 些 服务 的 开销 非常 大 且 很 麻烦 。 这 些 功能 位 于 IaaS 层 和 上 面 


























的 层次 中 ， 包 括 操作 系统 、 数 据 库 、 软 件 授权 、 网 络 和 负载 平衡 、 服 务 器 














CWeb 和 其 他 )、 











软件 补丁 和 升级 、 监 控 、 和 警告 、 安 全 修复 、 系 统管 理 等 。 使 用 云 服务 的 主要 好 处 是 与 自行 维 
护 相 关 设 备 相 比 ， 使 用 这 一 层 的 服务 不 会 让 设备 空闲。 因为 购买 计算 机 设备 的 数量 是 根据 原 










































































先 预 计 的 网 络 流量 计算 的 。 如 果 人 花费 大 量 资金 购置 的 设备 没有 充分 得 到 利 
JETER GEE 









































]， 在 那里 闲置 就 





云 计 算 的 概念 已 经 出 现 很 入 了 ，Sun Microsystems 的 John Gage 在 1984 年 创立 了 最 初 令 
人 记忆 深刻 的 术语 一 一 网 络 即 是 计算 机 。 但 云 计 算 在 21 世纪 初 才 商业 化 。 具 体 来 说 ， 是 在 
2006 FEX, WEEET AWS。 亚 马 逊 闲置 的 功能 促使 他 们 推出 这 个 服务 。 亚 马 逊 必须 


























购置 足够 多 的 计算 资源 ， 来 满足 购物 季 在 线 购物 的 流量 和 业务 需要 。 




















根据 亚马逊 的 白皮书 ~， 亚马逊 声称 :“ 在 2005 年 ， 他 们 必须 花费 数 百 万 美元 来 构建 并 


























管理 大 规模 、 可 用 且 高 效 的 IT 设备 ， 来 文 撑 世界 最 大 的 零售 平台 的 运作 。” 
但 凭借 所 有 的 存储 和 计算 能 力 , 这 些 设 备 中 的 大 部 分 在 一 年 的 其 他 时 间 
老实 说 ,闲置 在 那里 。 所 以 为 什么 不 将 这 些 额 外 的 CPU 和 存储 能 力 租 出 去 ， 
















































































里 会 做 些 什 么 呢 ? 
提供 一 个 服务 呢 ? 











亚马逊 的 确 这 样 做 了 。 从 那 时 开始 ， 其 他 几 家 大 型 科技 公司 也 加 入 了 这 种 趋势 : Google. 








Salesforce、IMicrosoft、RackSpace、Joyent、VMware， 以 及 许多 其 他 公司 都 力 








当 亚马逊 的 EC2 和 S3 服务 清晰 地 定义 了 云 服务 的 层次 ， 为 需要 托管 应 用 的 客户 打开 了 





















































[入 到 这 个 行列 

















一 个 新 的 市 场 ， 具 体 来 说 ， 就 是 能 够 编写 自 定义 软件 系统 ， 来 利用 Salesforce 公司 的 (顾客 
XO 数据 。 这 让 Salesforce 创建 了 force.com， 这 是 第 一 个 专门 做 这 个 业务 的 平台 。 当 然 ， 







































































LA 








并 不 是 所 有 人 想 用 Salesforce 的 专 有 语言 编写 应 用 。 所 以 Google FR SI A 


AR, PKA App Engine, Œ 2008 年 4 月 闪 亮 登场 。 
12.2.2 App Engine 





















































个 更 通用 的 PaaS 








为 什么 在 一 本 介绍 Python 的 书 中 介绍 App Engine? App Engine 是 Python 的 核心 部 分 ， 
或 者 重要 的 第 三 方 包 吗 ? 尽管 都 不 是 ， 但 App Engine 的 出 现 对 Python 社区 和 市 场 产生 了 深 






























































远 的 影响 。 实 际 上 ,之 前 许多 读者 都 要 求 添加 介绍 Google App Engine 的 章 
RE Python Web Development with Django 书 中 也 添加 相关 章节 ， 这 本 书 是 
事 一 一 Jeff Forcier 和 Paul Bissex 共同 撰写 的 )。 














节 《 他 们 也 同样 要 
由 我 和 我 尊敬 的 同 




















不 同 的 Web 框架 之 间 有 相同 点 和 不 同 点 ， 而 App Engine 与 这 些 都 有 区 别 。 因 为 App 



































Engine 不 仅仅 是 一 个 开发 平台 ,还 是 一 个 带 有 应 用 的 主机 服务 。 后 者 是 使 








App Engine 开发 












































应 用 的 主要 原因 。 


o" 





Q. http://media.amazonwebservices.com/AWS Overview.pdf. 








j 户 现在 可 以 更 方便 地 选择 开发 和 部 署 一 款 应 用 ， 也 可 以 像 以 前 那样 ， 自 
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己 搭建 支持 应 用 的 硬件 设备 。 在 App Engine 上 部 署 应 用 ， 所 有 要 做 的 额外 工作 只 有 设计 、 编 
码 、 测 试 应 用 。 
使 用 App Engine， 开 发 者 无 须 处 理 ISP 或 自行 托管 ， 只 须 将 应 用 上 传 到 Google, Google 
会 处 理 在 线 维护 的 逻辑 。 普 通 的 Web 开发 者 现在 可 以 享用 与 Google 相同 的 资源 ， 在 相同 的 
数据 中 心 运行 ,使 用 支撑 这 个 互联 网 巨人 相同 的 硬件 。 实 际 上 ， 通 过 App Engine 和 其 他 云 服 
F Google 实际 上 为 自己 使 用 的 设备 提供 了 一 个 公共 API。 这 包括 App Engine API 如 ， 数 据 
存储 (Megastore、Bigtable)、Blobstore、Image (Picasa), Email (GMail). Channel (GTalk) 
等 。 另 外 ， 现 在 开发 者 无 须 关 心计 算 机 、 网 络 、 操 作 系 统 、 电 源 、 冷 却 、 负 载 平 衡 等 问题 。 

ix Hea RHE, (E Python 在 这 当中 扮演 什么 样 的 角色 ? 

当 App Engine F 2008 年 最 先 上 线 时 ， 唯 一 支持 的 语言 运行 时 就 是 Python。Java 在 一 年 后 
文 持 ， 但 Python 处 于 特殊 的 地 位 ， 因 为 Python 是 App Engine 第 一 个 支持 的 运行 时 。 目 前 Python 
开发 者 已 经 知道 了 Python 是 易 用 、 鼓 励 协 同 开发 、 人 允许 快速 开发 的 语言 ， 不 需要 使 用 者 具有 
计算 机 科学 的 学 位 。 这 样 能 吸引 许多 不 同 专业 背景 的 用 户 。Python 的 创建 者 自身 就 在 App 
Enginef AIPA s 因为 App Engine 是 突破 性 的 平台 ， 且 与 Python 社区 连接 紧密 ， 所 以 很 有 必要 
向 读者 介绍 App Engine。 

App Engine 整个 系统 由 4 个 主要 部 分 组 成 : 语言 运行 时 、 硬 件 基 础 设施 、 基 于 Web 的 管 
理 控制 台 、 软 件 开发 包 (SDK)。SDK 为 用 户 提供 了 相应 的 工具 ， 即 开发 服务 器 及 访问 App 
Engine 的 API。 




































































































































































































































































































































































































































































关于 语言 运行 时 ， 很 明显 要 将 时 间 花 在 Python 上 面 ， 但 在 编写 本 书 时 ，App Engine 已 经 支 
持 Java, PHP 和 Go。 同样 ， 因 为 已 经 支持 Java， 所 以 开发 者 可 以 使 用 能 在 Java 虚拟 机 GVM) 
上 运行 的 语言 ， 如 Ruby, JavaScript 和 Python， 分 别 由 JRuby, Quercus, Rhino, Jython 运行 ， 
还 有 Scala 和 Groovy。 通 过 Jython 运行 的 Python 是 最 奇妙 的 ， 有 些 人 会 困惑 为 什么 会 有 用 户 在 
有 Python 可 用 的 时 候 去 使 用 Jython。 首 要 原因 是 有 用 户 希 望 用 Python 开发 新 项 目 ， 但 有 现成 的 
Java 包 可 以 利用 。 不 难 理解 ， 用 户 想 利用 已 有 的 包 ， 但 不 想 花 时 间 将 这 些 库 移植 到 Python 中 。 


硬件 基础 设置 


硬件 基础 设施 对 用 户 来 说 完全 是 一 个 黑 盒 。 用 户 并 不 知道 代码 运行 在 什么 硬件 上 。 大 致 
就 是 这 个 黑 盒 使 用 某 种 配置 的 Linux， 坐 落 在 连接 到 全 球 网 络 的 数据 中 心 。 读 者 可 能 听 过 
Bigtable， 这 是 App Engine 用 于 存储 数据 的 非 关系 数据 库 系统 。 对 于 大 多 数 人 来 说 ， 这 就 是 
所 要 知道 的 内 容 。 记 住 ， 有 了 云 计 算 ， 无须 关 心 这 些 内 容 。 云 计算 中 非常 复杂 的 工作 、 设 备 
维护 的 细节 ， 以 及 设备 的 可 用 性 ， 都 隐藏 到 幕后 。 





























































































































































































































































































































































































































© 现在 跳槽 到 Dropbox 了 。 一 一 译 者 注 
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基于 Web 的 管理 和 系统 状态 


本 章 剩 余 的 部 分 将 会 介绍 Google App Engine 的 Python 应 用 编程 接口 (API) 的 不 




















注意 ， 在 生产 环境 ， 
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应 用 程序 可 能 运行 在 不 同 版 本 的 Python (BK Java) 解释 器 上 。 
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而 且 


司 特性 


o 


因 





为 该 应 用 与 其 他 用 户 的 应 用 程序 共享 资源 ， 所 以 需要 考虑 安全 问题 。 所 有 应 用 必须 在 沙 盒 中 
执行 ， 即 一 个 受 限 的 环境 中 运行 。 是 的 ， 这 样 在 茶 种 程度 上 降低 了 控制 力 ， 增 加 了 组 件 构建 


难度 ， 降 低 了 扩展 性 





作为 补偿 ，App Engine 提供 了 基于 Web 的 管理 控制 台 ， 让 用 户 可 以 深入 了 解 应 用 ， 包括 





的 截图 。 

















Main 
Dashboard 
Quota Details 
Logs 

Datastore 
Indexes 
Data Viewer 

Administration 
Application Settings 
Developers 
Versions 
Admin Logs 

Billing 
Bilhng Settings 
Billing History 


Resources 
Documentation 
Developer Forum 
Downloads 
System Status 





onthally + Version: 1.54 


流量 、 数 据 、 日 志 、 账 单 、 设 置 、 使 用 状况 、 配 额 等 。 

















= Show All ications 


Charts 
Requests/Second > all 24h 12hr 6hr 


-一 人 一 -一 -一 一 ~ 

Billing Status: Enabled - Settings 

Resource (reset every 24 hours. Next reset. 10 hrs) Usage Cost / Budget 

Processor $0.10/CPU hour ES) 94% 49.20 of 51.30 hows $0.20 / $0.40 

Bandwidth in $0 10/Gbyte we 80% 12.00 of 15.00 Gbytes $0.20 / $0.40 

Bandwidth Out $0.12/Gbyte EBENEN 99% 14 10 of 14.17 Goytes $0.17 / $0.40 

Storage $0.005/Gbyte ha 25% 25.12 of 100.50 Gbytes $0.12 / $0.40 

Email $0.0001/Message Sa T 20% 500 of 2500 Messages $0.00 / $0.40 
T = Free quote Cost for the last 14 hours: $0.69 

Current Load Errors 

URI Req/Sec Requests Avg CPU % CPU URI Count % Errors 
Current. et he wun t 12 pm wee ne 

i 450.0 450 2 0% 1 39 9*5 


图 12-2 显示 了 一 个 应 用 的 管理 控制 台 

















同样 还 有 系统 级 别 的 状态 页 面 〈 见 图 12-3)， 用 于 监控 App Engine 中 





行情 况 。 




















图 12-2 Google App Engine 应 用 的 管理 控制 台 ( 图 片 由 Google 提供 
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当前 所 有 应 用 的 运 


注意 ， 这 里 的 “所 有 应 用 ”就 是 字面 意思 。 在 2010 年 冬天 ，Google App Engine 每 天 要 


处 理 超过 100 万 个 Web 页 面 。 当 创建 并 部 署 一 个 应 用 时 ， 就 会 添加 一 个 新 的 管理 页 面 。 尽 
管 这 样 感觉 很 激动 人 心 ， 但 再 次 提醒 一 下 ， 因 为 App Engine 对 于 所 有 开发 者 都 是 可 用 的 ， 








所 以 要 学 会 如 何 使 ) 














许多 服务 和 API. 
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JUPE. WIE AMAT ER AB E, [AI App Engine 为 开发 者 提供 
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egy "Coogle App Engine System © Bo 
|€ > SF fi © code googte.com/status/appengine Saga | 
Google app engine Help | Admin Console 
System Status 
Current Availability Uptime (last 7 days) Read latency (today) Write latency (today) 
10075 A A 
4 s 124440 1241540 1241640 124740 124810 124940 Yesterday Today Now 
Serving 
Python cv T Ld v v v 企 T Normal 
Java cv cf 只 Y T Ld 只 7 Normal 
APIs 
Datastore wv v v v T T 企 c Normal 
Images 只 只 d 7 v Ld 只 * Normal 
Mail 7 7 v 7 v 7 v 7 Normal 
Memcache Ld 7 v ov cv Ld 7 LA Normal 
Taskqueue cv v T T T 7 v T Normal 
Urifetch T T A T v T Sf 7 Normal 
Users v cf v v ov v of cv Normal 
Mean riens dace most severe issue (if any) encountered during that day. Click a symbol in the table above to 


vf Nosignificantissues | Scheduled maintenance © Investigating Æ Service disruption @ Unknown 









































图 12-3 Google App Engine 应 用 的 系统 状态 页 面 〈 图 片 由 Google 提供 ) 




















12.3 沙 盒 和 App Engine SDK 








开发 者 都 不 会 希望 别人 的 应 用 能 访问 他 的 应 用 的 源 代码 或 数据 ， 其 他 应 用 也 同样 如 此 。 
在 沙 盒 中 有 一 些 无 法 绕 过 的 限制 (如 果 某 些 行为 现在 认为 是 安全 的 ，Google 会 取消 这 些 限 
制 )。 禁 止 的 行为 包括 但 不 限于 下 面 这 些 。 
。 不 能 创建 本 地 磁盘 文件 ， 但 可 以 通过 Files API 创建 发 布 的 文件 
。 不 能 打开 入 站 网 络 套 接 字 连接 。 
。 不 能 派生 新 进程 。 
。 不 能 执行 (操作 )〉 系统 调用 。 
。 不 能 上 传 任何 非 Python 源码 。 
日 于 这 些 限制 , App Engine SDK 提供 了 一 些 高 阶 的 API, 来 弥补 这 些 限 制 带 来 的 功能 损失 。 
另外 ， 因 为 App Engine 使 用 的 Python 版 本 (目前 是 2.7) 仅仅 是 所 有 Python 版 本 的 一 部 
ay, 所 以 无 法 使 用 Python 所 有 的 功能 , 特别 是 由 C 编译 而 来 的 特性 。App Engine 中 有 一 些 C 
编译 的 Python 模块 。 Python 2.7 版 本 支持 更 多 的 C Fe, 如 一 些 常 用 的 外 部 库 , 如 NumPy、 Ixml 
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和 PIL. ZERE, 2.5 版 本 支持 的 C FE 





表 实 际 上 是 一 个 “ 黑 名 单 ”。 


http://code.google.com/appengine/ kb/libraries.html 中 列 出 
中 不 可 用 的 C 库 (对 于 Java 类 也 有 一 个 类 似 的 列表 )。 如 果 想 使 用 任何 
ali Python, 就 可 以 打包 到 源码 ! 
时 不 要 使 用 不 在 白 名 单 ， 
以 上 传 的 文件 总 数 
外 (当前 是 1GB )。 这 上 
CSS, JavaScript 等 。 单 个 文件 的 大 小 也 有 限 
可 以 访问 https://cloud.google.com/appengine/docs/quotas，App Engine 的 











要 这 个 库 是 
文件 等 )， 同 

记 住 ， 
大 小 也 有 限于 
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AE 





有 限制 的 ( 














(Ali Python 意味 
的 模块 或 包 。 
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T Python 2.5 中 可 


Ae — 
LR 





11H Pytho 
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没有 可 




















当前 是 10000 4S), 同时 对 所 有 上 传 文件 




















包括 应 用 程序 的 文件 , 以 及 一 些 静 
由 《当前 是 32MB)。 若 想 了 解 当 前 大 小 的 限制 ， 


态 资 源 文 件 , 如 HT 


AN D 








团队 在 努力 提高 





的 上 线 。 当 然 ， 有 几 种 办 法 能 绕 过 这 些 令 人 头疼 的 限制 。 




















如 果 应 用 需要 处 到 
Engine Blobstore〈 见 表 12-1) ! 


(blob) 大 小 的 


4 








不 管 打包 了 多 少 .py XH 








大 小 的 限制 





篇 文章 Chttp://docs.djangoproject.com/en/dev/ref/settings 
捉 问 题 ,回头 来 看 执行 限 
起 来 无 法 构建 一 个 非常 有 用 的 应 





解决 了 文件 限 
不 能 使 用 这 些 功 能 ， 

















的 媒体 文件 超过 了 单个 文件 大 小 的 限制 ， 可 以 将 这 个 文件 存储 在 









































, XXH 


限制 。 如 果 .py CCEA Be A ket T BR Hi 
F， 只 要 是 单个 Zip 文件 即 可 。 当 然 ， 这 个 Zip X 
日 至 少 无 须 担 心 文件 数目 的 问题 。 关 于 使 用 Zip 文件 的 更 多 





方 Python 库 ， 
执行 程序 , 没有 .so 或 .dl 
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成 了 一 个 “ 白 名 单 ”， 2.7 版 本 支持 更 多 的 库 ， 这 个 列 


n 2.7 


只 


的 总 
ML, 


限制 


App 


可 以 存储 任意 大 小 的 文件 。 也 就 是 说 ， 没 有 单个 文件 








= 


， 需 要 将 这 些 文件 存储 到 Zip 中 并 
牛 必须 小 于 单个 
Hi. WWE 
， 注 意 ， 这 篇 文章 开头 的 提示 )。 
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12.3.1 服务 和 APIl 





为 了 能 让 月 


况 下 需要 打开 网 络 套 接 字 呢 ? 是 否 需要 与 其 他 有 


























API。 发 送 或 接收 : 
Messaging and Presence Protocal， 或 简单 一 点 的 Jabber) API 可 以 发 送 或 接收 即 


操作 都 有 对 应 的 API， 如 访问 基于 网 络 的 辅助 缓存 (Memcache API), 














BT HOPES AB 























央 〈 不 能 使 用 套 接 字 、 本 地 文件 、 进 程 、 系 统 调 用 )。 
jo PEHR, PSA RRIKA! 












































户 完成 工作 ，Google 不 断 提 供 新 的 功能 来 解决 这 些 核心 限制 。 例 如 ， 什 
信 ? 在 这 种 情况 下 ， 使 用 URLfetch 





+s 


民 务 器 通 


























#? 那么 可 以 使 


























| Email API。 同 样 ， 














ipic 


S 
© o 








上 传 。 


文件 
考 这 
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€H XMPP (eXtensible 


各 个 


部 署 反 向 AJAX 或 


browser push CChannel API)， 访 问 数据 库 (Datastore APD 等 。 表 12-1 列 出 了 本 书 编写 时 App 
Engine 开发 者 所 能 使 用 的 所 有 服 














务 和 API. 








表 12-1 Google App Engine 的 服务 与 API (有 些 为 实验 性 的 ) 





























































































































服务 /API 说 明 
App Identity 于 应 用 或 其 他 API 请 求 信息 时 用 来 进行 身份 验证 
Appstats 基于 事件 的 框架 ， 帮 助 衡量 应 用 的 性 能 
Backends 如 果 标 准 的 请 求 /响应 或 任务 队列 的 截止 期 限 无 法 满足 需求 , 可 以 使 用 Backends API 让 App Engine 的 
代码 继续 执行 
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(BER) 
服务 /API 说 明 
Blobstore Blobstore 可 以 让 应 用 处 理 大 于 Datastore 限制 的 数据 对 象 〈 如 媒体 文件 ) 
Capabilities 让 应 用 能 够 检测 App Engine 的 Datastore 或 Memcache 是 否 可 
Channel 直接 向 浏览 器 推送 数据 ， 即 Reverse Ajax、browser pusn、Comet 
Cloud SQL 使 用 关系 数据 库 〈 而 不 是 默认 的 可 扩展 的 分 布 式 Datastore) 
Cloud Storage 使 用 Files API〈 参 见 这 张 表 后 面 的 描述 )， 直 接 向 Google Cloud Storage 读 写 文件 
Conversion 使 用 这 个 API 在 HTML. PDF 格式 、 文 本 和 图 像 格式 之 间 转 换 
Cron 使 用 Cron 能 够 在 特定 的 日 期 、 时 间或 时 间 间 隔 运 行 计划 任务 
Datastore 一 个 分 布 式 、 可 扩展 、 非 关系 持久 性 数据 存储 
Denial-of-Service 使 用 这 个 API 来 设置 过 滤器 ， 屏 项 发 布 拒绝 服 务 (DoS) 攻 击 应 用 程序 的 IP 地 址 
Download 在 发 生 灾难 时 ， 开 发 人 员 可 以 下 载 上 传 到 Google 的 代码 。 
Files 使 用 常见 的 Python 文件 接口 创建 分 布 式 的 (blobstore 或 Cloud Storage) 文 件 
(Full-text)Search 在 Datastore 中 搜索 文本 、 时 间 戳 等 
Images 处 理 图 像 数 据 ， 例 如 ， 创 建 缩 略图 、 裁 切 、 调 整 大 小 和 旋转 图 像 
Logs 人 允许 用 户 访问 应 用 程序 和 日 志 请 求 ， 甚 至 对 于 长 时 间 运 行 的 请 求 ， 在 运行 时 进行 清理 
Mail 这 个 API 让 应 用 程序 能 够 发 送 和 /或 接收 电子 邮件 
MapReduce 在 非常 大 的 数据 集 上 执行 分 布 式 计算 。 包 括 map. shuffle. reduce 阶段 的 API 
Matcher 高 扩展 的 实时 匹配 基础 设施 : 注册 查询 来 匹配 对 象 流 
Memcache 在 应 用 程序 和 持久 性 存储 之 间 的 标准 分 布 式 内 存 数据 缓存 〈 类 似 Memcached) 
Namespaces 使 用 命名 空间 ， 通 过 划分 Google App Engine 数据 ， 创 建 多 租户 的 应 用 程序 
(Multitenancy) 
NDB (新 数据 库 ) 新 的 实验 性 的 Python-App 引擎 高 级 Datastore 接 
OAuth 为 第 三 方 提供 一 种 代表 用 户 访问 数据 的 安全 方法 ， 无 需 授 权 (登录 /密码 等 ) 
OpenID 户 可 以 使 用 Google 账户 和 OpenID 账户 登录 联合 身份 验证 服务 
Pipeline 管理 多 个 长 时 间 运 行 的 任务 /工作 流 ， 并 整理 运行 的 结果 
Prospective Search 有 些 与 允许 用 户 搜索 现 有 数据 的 全 文 检 索 API 相 比 ，Prospective Search 允许 用 户 查 询 尚未 创建 的 数 
据 : 设置 查询 ， 当 存储 匹配 的 数据 时 ， 调 用 API〈 想 想 数据 库 触 发 器 加 上 任务 队列 ) 
Socket 允许 用 户 通过 出 站 套 接 字 连接 来 创建 并 通信 
Task Queue 无 需 用 户 交互 就 可 以 执行 后 台 任务 〈 可 以 并 发 执行 ) 
URLfetch 通过 HTTP 请 求 /响应 与 其 他 应 用 程序 在 线 通 信 
Users App Engine 的 身份 验证 服务 ， 管 理 用 户 的 登录 过 程 
WarmUp 流量 到 来 之 前 在 实例 中 加 载 应 用 程序 以 缩短 请 求 服务 时 间 
XMPP 让 应 用 能 够 通过 Jabber / XMPP 协议 来 聊天 《发 送 和 /或 接收 即时 消息 ) 
听 起 来 很 不 错 ， 说 得 够 多 了 ， 现 在 开始 动手 ! 首先 要 做 的 就 是 选择 一 个 用 来 构建 应 用 


的 框架 。 














12.4 



































如 果 编 写 不 是 面向 用 户 的 应 
选择 框架 就 不 那么 重要 。 
E m 
























































选择 一 个 App Engine 框架 


j， 也 就 是 说 ， 仅 仅 编 写 一 个 让 其 
目前 ， 有 多 个 框架 可 供 选择 ， 如 表 12-2 所 示 。 
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表 12-2 用 于 Google App Engine 的 框架 
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1, ABA 





webapp. webapp2 











App Engine SDK 自 带 的 轻 





-级 Web 框架 




















































































































































































































































































































































































































bottle Python 中 的 一 个 轻 量 级 WSGI 微型 Web 框架 ， 附 带 App Engine 适配器 (gae) 

Django Django 是 一 款 流行 的 Python 全 栈 Web 框架 (在 GAE 中 并 非 所 有 功能 都 可 用 ) 

Django-nonrel 于 在 非 关 系数 据 存储 〈 如 GAE) 上 运行 Django 应 用 程序 

Flask 男 一 个 微型 框架 ( 像 上 面 的 “bottle”), 基 于 Werkzeug & Jinja2( 像 下 面 的 Kay)， 易 于 定制 ， 没 有 
本 地 数据 抽象 层 ， 直 接 使 用 App Engine 的 Datastore 

GAE Framework 基于 Django， 但 是 简化 过 。 使 用 这 个 框架 可 以 重用 已 有 的 应 用 架构 ， 如 users. blog. admin 等 。 可 
以 认为 是 用 于 App Engine 的 Django + Pinax 简化 版 

Google App 如 果 Web 应 用 太 简单 ， 而 Django 太 复 杂 ， 可 以 使 用 这 个 MVT 框架 ， 与 Django 类 似 ， 也 是 受到 了 

Engine Oil (GAEO) Ruby 的 Rails 和 Zend 框架 的 启发 

Kay 与 Django 类 似 ， 但 使 用 Werkzeug 作为 低层 框架 、 使 用 Jinja2 作为 模板 引擎 、 使 用 babel 来 翻 
译 语言 

MVCEngine 受到 Rails 和 ASPNET 启发 的 框架 

Pyramid 另 一 种 流行 全 栈 Web 框架 ， 基 于 Pylons 和 repoze.bfg 

tipfy 比 webapp 更 强大 的 轻 量 级 框架 ， 只 为 App Engine 而 建 。 这 也 导致 webapp2 的 创建 ， 意 味 着 最 初 的 
创造 者 不 再 维护 这 个 框架 

web2py 另 一 款 Python 全 栈 Web 框架 ， 有 较 高 的 抽象 级 别 ， 这 意味 着 它 比 其 他 的 框架 更 容易 使 用 ， 但 隐藏 
了 更 多 的 细节 《有 好 有 坏 ) 


App Engine 的 大 多 数 初学 者 会 直接 使 有 
Engine 自 带 这 两 个 框架 。 这 是 不 错 的 选择 ， 
的 应 用 。 但 有 一 些 熟 练 的 Python Web 开发 者 之 前 使 用 了 入 
剖 环 境 ， 在 默认 情 ; 
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具 ， 能 够 构建 有 
想 继续 使 用 ， 由 于 App Engine ! 
不 过 ，App Engine 与 Django 之 间 仍 然 有 
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某 种 联系 。 














H webapp 或 webapp2 来 了 











webapp íR fai! 





， 但 其 


解 App Engine, Ay. App 





提供 了 一 些 基本 




















下 无 法 使 
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] Django 的 所 有 特性 。 


久 的 Django, 








Django 中 的 一 些 组 件 已 经 集成 进 App Engine，Google 在 App Engine 的 服务 器 上 提供 了 


某 个 版 本 的 Django (尽管 
在 编写 本 书 时 ，App Engine 提供 了 0.96、1.2 和 1.3 版 的 Django， 
几 个 关键 部 分 没有 引入 到 App Engine 中 ， 最 重要 的 包括 对 象 关系 
映射 器 CObject-Relational Mapper, ORM), ORM 需要 一 个 传统 的 SQL 关系 数据 库 基础 。 















































有 些 老 ), | 























新 的 版 本 。 但 Django 中 有 


























户 无 须 将 完整 的 Django 安装 包 与 自己 的 应 用 一 同上 传 。 
读者 阅读 本 书 时 可 能 会 包含 
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这 里 使 用 “传统 ”是 因为 有 若干 计划 尝试 让 Django 支持 非 关 系 (NO SQL) 数据 库 。 
但 在 编写 本 书 时 ， 还 没有 这 样 的 项 目 集成 到 Django 发 行 版 中 。 也 许 在 读者 阅读 时 ，Django 
或 许 已 经 同时 支持 关系 和 非 关 系数 据 库 。 除了 对 Django 1.3 和 L4 的 提议 , 还 有 一 个 比较 著 
名 的 就 是 Django-non-rel 这 个 项 目 。 这 是 Django 的 一 个 分 文 ， 其 中 含有 针对 Google App 
Engine 和 MongoDb 的 适配器 (还 有 其 他 正在 开发 的 适配器 )。 同 时 还 有 将 JOIN 引入 NoSQL 
适配器 ， 但 此 项 目 仍 在 开发 中 。 如 果 后 面 有 与 Django 的 非 关 系 型 开发 者 相关 的 信息 ， 到 时 
候 会 注 明 。 

Tipyfy 是 专门 针对 App Engine 开发 的 轻 量 级 框架 。 可 以 认为 其 是 webapp++ 或 “webapp 
2.0”， 其 中 含有 webapp 中 弃 用 的 一 些 功 能 。Tipyfy 的 功能 包括 (但 不 限于 ) 国际 化 、 会 话 管 
理 、 其 他 形式 的 验证 (Facebook、FriendFeed、Twitter 等 )、 访 问 Adobe Flash (AMF 协议 访 
问 ， 以 及 动画 消息 、ACL 访问 控制 列表 )， 以 及 额外 的 模板 引擎 Jinja2, Mako, Genshi). 
Tipyfy 基于 WSGI 并 关联 到 Werkzeug 工具 集 ， 这 个 工具 集 是 任何 兼容 WSGI 应 用 的 基础 。 
关于 Tipfy 的 更 多 信息 可 以 访问 这 个 链接 中 的 站 点 和 wiki 页 面 http://tipfy.org。 

web2py 是 Python 中 4 个 著名 的 全 栈 Web 框架 之 一 〈 另 外 3 个 是 Django、TurboGears 和 
Pyramid)。 这 是 第 二 个 兼容 Google App Engine 的 框架 。web2py 侧重 于 让 开发 者 创建 基于 数 
据 库 系统 的 快速 、 可 扩展 、 安 全 且 可 移植 的 Web 应 用 。 其 中 数据 库 可 以 是 关系 型 的 ， 也 可 以 
是 Google App Engine 的 非 关 系数 据 存储 。web2py 可 以 使 用 许多 不 同 的 数据 库 。 其 中 有 一 个 
数据 库 抽 象 层 (DAL) 将 ORM 请 求实 时 转 成 SQL 形式 ， 以 此 作为 与 数据 库 交 互 的 接口 。 自 
然 ， 对 于 App Engine 应 用 程序 ， 依 然 需要 受到 Datastore 抽象 出 来 的 关系 数据 库 的 限制 ( 即 
没有 JOIN )。web2py 还 支持 多 种 Web 服务 器 ， 如 Apache、1ligHTTPS， 或 任何 兼容 WSGI 的 
服务 器 。 对 于 已 经 在 使 用 web2py 且 想 将 应 用 移植 到 App Engine 中 的 用 户 来 说 , 使 用 web2py 
是 很 自然 的 事 。 
j 户 也 可 以 选择 其 他 框架 来 开发 应 用 。 任 何 兼容 WSGI 的 框架 都 可 以 。 这 里 使 用 App 
Engine 中 最 常用 的 webapp， 同 时 也 鼓励 读者 使 用 webapp2 来 完成 这 里 的 示例 ， 以 此 来 
提升 自己 。 

介绍 一 点 历史 知识 : 一 个 富有 热情 的 App Engine 开发 者 不 满足 现 有 的 框架 ， 于 是 导致 他 开 
发 了 tipfy。 接 着 他 试图 改进 webapp、 于 是 放弃 了 tipfy， 构 建 了 webapp2。webapp2 开发 得 很 好 ， 
于 是 Google 将 其 集成 到 了 2.7 版 本 的 运行 时 SDK P COH 章 开头 的 引言 就 是 说 的 这 件 事 )。 


12.4.1 框架 : webapp 到 Django 


第 11 章 介 绍 了 Django， 以 及 如 何 使 用 Django 创建 博客 。 这 里 默认 使 用 webapp 也 创建 
博客 .与 Django 示例 相同 , 3288. 将 介绍 如 何 使 用 App Engine 构建 相同 的 东西 ,使 用 App Engine 
开发 环境 运行 。 用 户 还 可 以 创建 Google Account 或 其 他 OpenID 身份 (或 使 用 已 有 的 )， 并 设 
置 应 用 ， 让 其 运行 在 实时 App Engine 生产 环境 中 。 本 章 将 介绍 如 何 完 成 这 些 内 容 。 虽 然 在 应 
上 线 时 不 需要 信用 卡 ， 但 需要 一 部 能 接收 短信 或 文本 信息 的 手机 。 
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总 结 一 下 , 本 章 会 把 上 一 章 使 用 Django 完成 的 博客 应 用 移植 到 App Engine (开发 或 生产 
环境 ) rH. App Engine 的 概念 和 特性 足够 再 写 一 本 书 了 ， 所 以 这 里 不 会 全 面 介 绍 。 现 有 的 介 
绍 完全 可 以 让 读者 流畅 地 完成 这 个 App Engine 产品 的 各 个 方面 。 


下 载 并 安装 App Engine SDK 


首先 ， 需 要 获取 对 应 平台 的 App Engine SDK。SDK 有 多 个 平台 的 版 本 ， 所 以 需要 注意 当前 
系统 对 应 的 版 本 。 访 问 Google App Engine 的 主页 《位 于 http://code.google.com/appengine )， 单 击 
Downloads 链接 。 在 这 里 可 以 找到 适合 当前 平台 的 版 本 。SDK 还 有 针对 Java 开发 者 的 版 本 ， 
但 这 里 只 关注 Python。 

Linux 或 *BSD 用 户 应 该 下 载 Zip 文件 ， 解 压 后 ， 将 google_appengine 文件 夹 放 到 合适 的 
地 方 ( 如 /usr/local F), 创建 dev_appserver.py 和 appcfg.py 命令 的 链接 。 除 此 之 外 ， 也 可 以 直 
接 将 /asrlocal/google_appengine 添加 到 系统 路 径 中 《对 于 这 些 用 户 ， 可 以 跳 过 本 节 剩 下 的 部 
分 及 后 面 一 节 ， 直 接 阅 读 12.62 115. 

Windows 用 户 应 该 下 载 .msi 文件 。Mac 用 户 应 该 下 载 .dmg 文件 。 当 找到 合适 的 文件 后 ， 
双击 或 启动 来 安装 App Engine SDK。 这 个 过 程 同 时 会 安装 Google App Engine Launcher。 
Launcher 可 以 用 来 管理 位 于 开发 电脑 上 的 App Engine 应 用 ， 并 能 帮助 将 应 用 上 传 到 Google， 
让 其 运行 在 生产 环境 里 。 



























































fi& FH Launcher 创建 “Hello World” ( 仅 限 于 Windows 和 Mac HÀ ) 
当 启 动 了 Launcher 后 ， 会 看 到 如 图 12-4 和 图 12-5 所 示 的 控制 面板 。 


OOO GoogleAppEngineLauncher (=) 









[Users mi ome 


o -— — /Users jmd: com. Lom bm 8083 
LIE erik [Users maand 8084 
c= / Users, maiers 8085 
© wenn /Users —— -/helloworld 8086 
© mysite [Users mmm maaike Colianes Qu ESimple | 8089 
© pean toc [Users I sr/mysite 8090 


, [User setant 














图 12-4 Mac 中 的 App Engine Launcher 
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4 Google App Engine Launcher ioj x} 
File Edit Control Help 


€ pyconapac C:\py\gaelpyconapac 














图 12-5 Windows 中 的 App Engine Launcher 














控制 面板 中 会 多 个 按钮 ， 可 以 启动 〈 或 暂停 ) 开发 服务 器 (Run 按钮 )， 浏 览 日 志 (Logs 
按钮 )， 浏 览 开 发 管理 控制 台 (SDK Console 按钮 )， 编 辑 配置 信息 〈Edit 按钮 )， 将 应 用 上 传 
至 App Engine 生产 服务 器 (Deploy 按钮 )， 或 者 跳 转 至 当前 应 用 的 管理 控制 台 (Dashboard 
按钮 )。 首 先 创 建 一 个 新 应 用 ， 在 开发 过 程 中 会 用 到 Launcher 中 的 这 些 按钮 。 

为 了 做 到 这 一 点 ,从 菜单 栏 的 下 拉 菜 单 中 选择 创建 一 个 新 应 用 。 赋 予 一 个 唯一 的 名 字 ， 
“helloworld” 应 该 已 经 被 占用 了 。 还 可 以 为 应 用 设置 其 他 选项 ， 如 创建 新 样板 文件 的 文件 
来 路 径 ， 以 及 服务 器 的 端口 号 。 完 成 这 些 后 ， 将 会 在 Launcher 的 主 面板 中 看 到 这 个 应 用 ， 
这 表示 它 已 经 可 以 运行 了 。 在 运行 之 前 , 先 查 看 自动 创建 的 三 个 文件 : app.yaml、 index.yaml 
和 main.py。 


App Engine 的 默认 文件 
app.yaml 文件 表示 应 用 的 配置 信息 。 默 认 生成 的 文件 如 示例 12-1 所 示 。 






































































































































































































































































































































示例 12-1 默认 的 配置 文件 〈app.yaml) 


1 application: APP_ID 
2 version: 1 

3 runtime: python 

4 api_version: 1 


5 

6 handlers: 

7 - url: .* 

8 script: main.py 

















YAML (yet another markup language) 文件 由 一 系列 的 键 值 对 和 序列 组 成 。 关 于 YAML 
格式 的 更 多 信息 ， 可 以 访问 http://yaml.org 和 http://en.wikipedia.org/wiki/Yaml。 
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逐 行 解释 

第 1~4 行 

第 一 部 分 是 纯 配 置 ， 为 App Engine 应 用 (APP_ID〉 赋予 一 个 名 称 ， 其 后 需要 跟着 一 个 
版 本 号 。 对 于 开发 来 说 ， 可 以 选择 任何 想 要 的 名 字 ， 如 “blog”。 如 果 需 要 上 传 到 App Engine 
的 生产 环境 ， 则 需要 选择 一 个 从 来 没有 用 过 的 名 称 。 应 用 名 称 要 注意 以 下 几 点 ， 名 称 不 能 
移 ， 不 能 回收 。 当 选 定 名 称 后 ， 该 名 称 就 会 一 直 被 占用 ， 即 使 删除 该 应 用 也 是 如 此 ， 所 以 说 
慎 选 择 

版 本 号 是 一 个 唯一 可 以 自行 选择 的 字符 串 。 其 取决 于 读者 如 何 设置 版 本 号 。 可 以 使 





















































传统 的 0.8、1.0、1.1、1.1.2、1.2 等 ， 也 可 以 使 月 


个 字符 串 ， 但 只 能 使 月 
本 ( 主 版 本 号 和 副 版 本 号 表示 不 
传 新 版 本 。 


在 版 本 号 下 面 是 运行 时 
用 Java 或 JRuby， 以 及 














SJL. 开 | 
AX. 
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同 的 























这 是 
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字母 或 数字 ， 以 及 连 字 
版 本 )。 在 此 之 后 ， 除 非 删除 其 





有 是 Python 和 
b JVM 运行 时 。app.yaml 文件 用 于 生成 产 web.xml 和 





名 方式 ， 如 v1.6 或 1.3beta。 虽 然 
可 以 为 应 用 创建 最 多 10 个 版 
他 版 本 ， 否 则 不 能 上 


其 他 命 
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第 1 版 的 AP。 还 可 以 修改 app.yaml 来 使 





appengineweb.xml 文件 ， 也 就 是 servlet 需要 的 文件 。 


& 6—84T 











最 后 几 行 指定 了 处 到 
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则 表达 式 ， 并 提供 对 应 的 处 理 
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程序 。 与 Django URLconf 文件 类 似 ， 需 要 指定 匹配 客户 端 主 
序 。 在 Django 中 ， 这 些 “ 处 到 





El 








目 级 别 的 URLconf 文件 ,在 此 之 后 




















是 应 | 
有 更 精 

















请 求 发 送 给 Python 脚本 ， 后 者 含 
中 的 URLconf 也 是 这 样 将 请 求 指 

















向 一 个 视 






































关于 应 用 配置 的 更 多 内 容 ， 
python/config/appconfightml )。 
现在 来 看 下 index.yaml 文件 。 


indexes: 


ru 

















# AUTOGENERATED 


Ej 


层面 的 URLconf。 在 app.yaml 中 类 似 ， 脚 本 指令 将 
细 的 URL， 并 将 
读 官方 文档 (参见 http://code.google.com/appengine/docs/ 























Se AY 
程序 url 脚本 ” 键 值 对 对 应 项 
























































映射 到 处 到 











E 程 序 类 ，Django 应 用 


# This index.yaml is automatically updated whenever the dev appserver 











index.yaml 文件 用 于 为 应 月 








需要 每 个 查询 有 对 应 的 索引 (简单 的 查询 会 





的 索引 ， 和 否则 一 般 无 须 考 虑 索 




















引 问 题 。 


关于 索引 的 更 














Het Ae MAS]. A Sik App Engine 更 快 地 查询 datastore， 
自动 创建 索引 ,无 须 手 动 添加 )。 除 非 是 非常 复杂 





























多 内 容 ， 可 以 阅读 官方 文档 ， 


http://code.google.com/appengine/docs/python/config/indexconfig.html) 。 











最 后 一 个 由 Launcher 自动 











E 成 的 文人 








A = 
PAG 3 
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文件 main.py)， 如 示例 12-2 所 示 。 
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示例 12-2 AXI (main.py) 


from google.appengine.ext import webapp 

















1 
2 from google.appengine.ext.webapp import util 
3 
4 class MainHandler(webapp.RequestHandler): 
5 def get(self): 
6 self.response.out.write('Hello world!') 
7 
8 def mainO: 
9 application = webapp.WSGIApplication([('/', MainHandler)], 
10 debug-True) 
11 util.run wsgi app(application) 
12 
13 if name == ' main ': 
14 main() 
逐 行 解释 
第 1—24T 
前 两 行 导 入 了 webapp 框架 ， 以 及 其 中 的 run. wsgi. appO 工 具 函 数 。 
第 4~6 行 


























在 导入 语句 之 后 , 会 看 到 MainHandler 类 。 这 是 本 例 中 的 核心 功能 。 其 中 定义 了 getO 
函数 ， 从 名 称 就 能 看 出 ， 该 函数 用 于 处 理 HTTP GET 请 求 。 处 理 程序 的 实例 会 有 request 
和 response 属性 。 在 这 个 例子 中 ， 只 将 HTML/text 写 出 ， 并 通过 response.out 文件 返回 
给 用 户 。 

第 8 一 11 行 

接 下 来 是 main0 函 数 ， 用 于 生成 并 运行 应 用 的 实例 。 在 实例 化 webapp.WSGIApplication 
的 调用 中 ， 会 发 现 一 些 二 元 组 ， 目 前 只 有 一 个 它 指定 了 每 个 请 求 对 应 的 处 理 程 序 。 在 这 里 ， 
目前 只 须 处 理 “/” 这 一 个 URL， 这 个 请 求 将 由 刚刚 介绍 的 MainHandler 类 处 理 。 

第 13 一 14 行 

最 后 , 根据 Python 源码 是 作为 模块 导入 , 还 是 直接 作为 脚本 执行 , 以 此 来 决定 执行 方式 。 
如 果 不 熟悉 这 里 的 代码 ， 建 议 回顾 第 3 章 和 和 本 章 前 面 的 内 容 。 

这 些 代 码 都 很 简单 ， 即 使 有 些 是 第 一 次 见 到 。 从 这 里 开始 ， 本 书后 面 将 持续 修改 应 用 
改进 或 添加 新 功能 。 


一 些 代码 清理 


在 向 添加 应 用 新 功能 之 前 ， 先 对 main.py 做 一 点 修改 ， 这 些 修改 不 影响 代码 执行 ， 如 示 
例 12-3 所 示 。 
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示例 12-3 ”应 用 主 程序 的 一 些 清理 工作 〈main.py) 


1 from google.appengine.ext import webapp 


2 from google.appengine.ext.webapp.util import run wsgi app 
3 

4 class MainHandler(webapp.RequestHandler): 

5 def get(self): 

6 self.response.out.write('Hello world!') 

7 

8 application = webapp.WSGIApplication([ 

9 ('/', MainHandler), 


10 J], debug=True) 
11 
12 def main): 




















13 run wsgi app(application) 
14 
15 if name == ' main ': 
16 main() 
清理 内 容 及 原 
1. 不 希望 在 每 次 运行 应 用 的 时 候 实 例 化 WSGIApplication。 将 其 从 main0 函 数 中 移入 全 局 

















代码 块 ! 


























2. 因为 只 使 用 了 webapp.util | 








， 只 实例 化 该 类 一 次 ， 而 不 是 每 次 请 求 都 实例 化 。 这 样 能 带 来 一 些 性 能 提升 ， 
虽然 不 大 ,但 无 论 是 否 是 App Engine 或 其 他 框架 ， 在 每 个 Python 
似 的 简单 优化 。 唯 一 的 小 缺点 是 该 应 用 现在 使 / 
的 一 个 函数 ， 

















































































































点 用 中 都 能 做 这 样 类 
1 了 一 个 全 局 变量 与 一 个 局 部 变量 。 
所 以 可 以 简化 导入 语句 ， 直 接 导 入 函数 名 称 ， 加 












































快 调用 run. wsgi appO 时 的 查找 速度 。 调 








J utilrun_wsgi_app0 与 调用 run wsgi appOTE— P3 











次 时 没什么 区 别 ， 但 考虑 到 应 用 需要 处 理 数 百 万 条 请 求 ， 这 个 改进 带 来 的 收益 就 很 大 了 。 





























3. 将 “URL- 处 理 程序 ”对 分 割 到 多 行 ， 有 利于 在 后 续 添 加 新 的 处 理 程序 ， 例 如 : 


('/', MainHandler), 
('/this', DoThis), 
('/that', DoThat), 





























这 就 是 目前 所 做 的 改动 。 如 果 非 要 给 个 称号 的 话 ， 这 就 是 偏向 “Django 风格 ”。 


12.5 Python 2.7 支持 











Google App Engine 最 初 支持 的 是 Pyth 














on 2.5〈 上 有 具体 来 说 ， 是 服务 器 上 的 Python 2.5.2). 





Google 最 近 发 布 了 新 的 Python 2.7 版 运行 时 











|， 在 本 书 编号 时 对 Python 2.7 的 支持 依然 是 实验 性 























的 ~“。 所 以 这 些 代 码 都 在 Python 2.5 中 运行 ， 可 以 使 








]Python 2.6 或 Python 2.7 来 开发 。 但 对 
































? 现 已 完全 迁移 至 Python 2.7。 一 一 译 者 注 











于 新 版 本 的 GAE， 需 要 注意 其 中 的 一 些 改动 。 后 面 还 会 指出 一 些 代码 上 的 差异 ， 这 样 读者 就 
可 以 自行 修改 代码 以 便 在 Python 2.7 版 中 运行 了 。 
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12.5.1 一 般 差异 


首先 介绍 一 个 重要 的 差异 是 Python 2.7 的 运行 时 支持 并 发 性 。 通 过 App Engine 的 定价 模 
式 ， 用 户 根据 应 用 中 运行 的 实例 数目 〈( 即 流量 ) 付费 。 由 于 Python 2.5 的 运行 时 不 支持 并 发 
性 ， 因 此 如 果 运 行 的 实例 无 法 应 对 流量 限制 ， 必 须 生成 新 实例 。 这 会 导致 开销 增加 。 使 用 并 
发 性 ， 应 用 可 以 异步 响应 ， 显 著 降低 对 实例 数目 的 需求 。 

接 下 来 ， 可 以 使 用 之 前 版 本 无 法 使 用 的 C Fg. 包括 PIL、lxml、NumpPy 和 simplejson (RẸ 
json). Python 2.7 版 还 支持 Jinja2 模板 系统 , 以 及 Django 模板 。 若 想 了 解 Python 2.5 和 Python 
2.7 版 运行 时 之 间 的 所 有 区 别 , 可 以 查看 官方 文档 , 参见 http://code.google.com/appengine/docs/ 
python/python27/newin27.html 。 


12.5.2 ”代码 中 的 差异 


代码 中 也 有 一 些微 小 的 差异 ， 若 想 在 Python 2.7 版 运行 时 中 执行 应 用 ， 必 须 对 代码 进行 
修改 ， 因 此 有 必要 了 解 这 些 改动 。app.yaml 文件 中 需要 修改 runtime 字段 。 另 外 ， 可 能 还 需 
要 通过 threadsafe 指令 打开 并 发 性 支持 。 另 一 个 主要 改动 是 转向 了 纯 WSGI, 现在 不 指定 一 个 
需要 执行 的 脚本 ， 而 是 指定 一 个 应 用 程序 对 象 。 所 有 这 些 改动 在 示例 12-4 中 用 和 斜体 表示 。 


示例 12-4 Python 2.7 示例 配置 文件 Capp.yaml) 
1 application: APP ID 




















































































































































































































































































































2 version: 1 

3 runtime: python27 
4 api version: 1 

5  threadsafe: true 
6 

7 handlers: 

8 - url: .* 

9 


script: main.application 














Python 2.7 版 运行 时 提供 了 新 的 改进 过 的 webapp 框架 ， 名 为 webapp2。 因 为 使 用 WSGI, 
而 不 是 CGI， 所 以 可 以 移 除 之 前 底部 多 余 的 “main(0”。 示 例 12-5 列 出 了 所 有 改动 ， 从 中 可 以 
看 到 ， 修 改过 的 代码 更 加 短小 且 易 读 。 


示例 12-5 Python 2.7 主 程序 文件 示例 (main.py) 
import webapp2 























m 


class MainHandler(webapp2.RequestHandler): 
def get(self): 
self.response.out.write('Hello world!') 


application = webapp2.WSGIApplication([ 
('/', MainHandler), 
D 


WO oo -— 0 tU 4 wn 
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注意 ，app.yaml 文件 指向 了 main.py 中 的 应 用 程序 对 象 main.application 。 关 于 Python 2.5 
All Python 2.7 版 本 之 间 main.py 的 更 多 差异 可 以 参考 : http://code.google.com/appengine/docs/ 
python/tools/ webapp/overview.html. 

关于 使 用 Python 2.7 版 运行 时 以 及 刚刚 介绍 的 相关 差异 的 更 多 信息 , 可 以 查看 这 篇 文档 ， 
链接 为 http://code.google.com/appengine/docs/python/python27/using27.htm。 






























































12.6 与 Django 比较 






































App Engine 并 不 是 作为 由 一 个 或 多 个 应 用 组 成 的 项 目 来 构建 一 个 Web 站 点 。 而 是 将 所 有 内 
容 组 成 一 个 应 用 。 前 面 提 到 过 ，app.yaml 文件 基本 上 与 Django 中 项 目 级 别 的 urls.py 类 似 ， 二 者 
都 将 URL 映射 到 对 应 的 处 理 程序 。 其 还 含有 settings.py 中 元 素 ， 因 为 这 也 是 一 个 配置 文件 。 
main.py 文件 类 似 Django 中 应 用 级 别 的 urls.py 加 views.py 的 组 合 。 在 创建 WSGI 应 
用 时 ,需要 一 个 或 多 个 处 理 程序 ， 用 于 指示 哪些 类 需要 实例 化 来 处 理 相应 的 请 求 。 这 个 类 
的 定义 以 及 相应 的 get0 或 post0 处 理 程序 同样 在 这 个 文件 中 创建 。 这 些 处 理 程序 类 似 
Django 中 的 视图 函数 。 
通过 第 11 章 ， 读 者 能 够 使 用 开发 服务 器 测试 应 用 。App Engine 有 自己 的 开发 服务 器 ， 
后 面 会 用 到 。 


12.6.1 开始 “Hello World” 


有 两 种 方法 在 开发 服务 器 上 启动 一 个 应 用 。 如 果 在 Launcher 中 ， 选 择 应 用 所 在 的 行 ， 单 
击 “Run” 按 钮 。 几 秒 钟 后 ， 会 看 到 该 图 标 转 成 绿色 。 此 时 可 以 单 击 Browse 按钮 ， 启 动 Web 
浏览 器 打开 应 用 。 
若 想 通 过 命令 行 启动 应 用 ， 确 保 dev_appserver.py 文件 位 于 系统 路 径 中 ， 接 着 执行 下 面 
PS 






















































































































































































































































































































































































$ dev appserver.py DIR. 


其 中 ，DIR 是 应 用 所 在 的 路 径 名 ( 即 app.yaml 和 main.py 文件 所 在 的 目录 )。 是 的 ， 如 果 
当前 就 位 于 这 个 路 径 下 ， 可 以 直接 使 用 下 面 的 命令 。 

$ dev appserver.py. 

5 Django 有 所 不 同 ，Django 使 用 基于 项 目的 的 命令 行 工 具 (manage.py), GAE 使 用 为 
所 有 App Engine 应 用 安装 的 通用 命令 行 工 具 。 另外 一 个 小 区 别 是 , Django 开发 服务 器 从 端口 
8080 Fi, GAE 使 用 8000。 这 只 是 意味 着 URL 必须 改 为 http://localhost:8080/ 或 
http://127.0.0.1:8080。 如 果 使 用 Launcher， 在 创建 新 应 用 时 ， 会 自动 授予 一 个 唯一 的 端口 号 ， 
可 以 直接 使 用 这 个 端口 号 ， 也 可 以 手动 选择 其 他 端口 号 。 
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12.6.2 ”手动 创建 “Hello World" (Zip 文件 用 户 ) 




















如 果 不 使 用 Launcher， 则 不 需要 前 面 输入 的 那些 代码 。 因 为 index.yaml 文件 在 此 时 不 是 




















必需 的 ， 只 需 一 个 框架 性 的 app.yaml 和 main.py 文件 。 读 者 可 以 手动 输入 ， 或 者 可 以 在 本 书 














的 Web 站 点 中 从 “Chapter 12” 文 件 夹 中 下 载 到 这 些 文件 。 当 有 了 这 两 个 文件 后 ， 通 过 前 在 

















介绍 的 命令 就 可 以 启动 开发 服务 器 (dev_appserver.py)。 


* 将 应 用 实时 上 传 至 Google 















































现在 还 有 点 早 ， 但 如 果 读 者 愿意 ， 可 以 跳 过 在 开发 服务 器 上 运行 应 
































的 阶段 。 直 接 将 其 














EIRE Google， 在 生产 环境 中 运行 。 让 全 世界 都 能 使 用 这 个 “Hello World”( 除 了 一 些 不 能 
使 用 Google 服务 的 地 方 )。 这 完全 是 可 选 的 ， 所 以 如 果 读 者 不 感 兴趣 ， 直 接 跳 到 下 一 节 来 继 












































续 构 建 博客 应 用 














App Engine 提供 了 免费 的 服务 层 ， 可 以 免费 开发 简单 的 低 流量 应 用 。 
Jf 


























的 手机 ， 以 及 一 个 Google 账号 ， 信 用 卡 并 不 是 必需 的 ， 除 非 应 用 需要 
问 http:/appengine.google.com， 登 录 并 创建 App Engine 账号 。 





























Thi 22 — Fc fe SMS 
超过 配额 限制 。 访 








ALL 


为 了 上 传 应 用 (以 及 相应 的 静态 文件 ， 如 果 有 )， 要 么 可 以 使 用 Launcher OXIE Windows 





























或 Mac)， 要 么 可 以 使 用 命令 行 工具 appcfg.py。 需 要 在 app.yaml 文件 所 处 的 顶层 目录 中 使 用 





















































update 命令 。 下 面 是 一 个 在 当前 目录 下 执行 appcfg.py 文件 的 示例 。 注意 











发 者 的 验证 信息 《电子 邮件 地 址 和 密码 )， 如 下 所 示 。 


$ appcfg.py update . 





Application: APP ID; version: 1. 

Server: appengine.google.com. 

Scanning files on local disk. 

Initiating update. 

Email: YOUR EMAIL 

Password for YOUR EMAIL: ***** 

Cloning 2 static files. 

Cloning 3 application files. 

Uploading 2 files and blobs. 

Uploaded 2 files and blobs 

Precompilation starting. 

Precompilation completed. 

Deploying new version. 

Checking if new version is ready to serve. 
Will check again in 1 seconds. 

Checking if new version is ready to serve. 
Will check again in 2 seconds. 


Checking if new version is ready to serve. 








， 需 要 输入 该 应 用 开 
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Closing update: new version is ready to start serving. 
Uploading index definitions. 


上 传 应 用 至 多 需要 大 概 一 分 钟 的 时 间 。 前 面 这 个 例子 只 用 了 3 8. 
等 上 传 完 成 后 ， 任 何人 都 可 以 访问 http://12-X.appspot.com 来 查看 “Hello World!” 这 个 
输出 ， 多 么 激动 人 心 ! 



























































核心 提示 : 仔细 选择 应 用 名 称 
在 上 传 应 用 的 源码 和 静 态 文件 之 前 , 需要 选择 一 个 没有 被 占用 的 名 称 (通过 app.yaml 
8 定 )， 应 用 的 名 称 是 永久 的 ， 不 能 重用 或 转移 ， 即 使 禁用 或 删除 应 用 也 不 行 . 


12.7 将 “Hello World” 改 成 一 个 简单 的 博客 


既然 成 功 地 创建 并 运行 简单 的 “Hello World” 应 用 ， 就 应 该 能 够 打开 浏览 器 并 访问 对 应 
的 地 址 。 从 Launcher 中 ， 只 须 单 击 “Browese” 按 钮 ， 如 果 不 使 用 这 个 按钮 ， 也 可 以 在 浏览 
器 中 访问 http://localhost:8080， 如 图 12-6 所 示 。 
















































































20 a X 


D locaihost:8080 


é em Œ fi © localhost:8080 er] 3 网 re 
Hello World! 














| 12-6 Google App Engine 的 Hello World 


























下 一 步 是 开始 修改 这 个 应 用 ， 增加 新 功能 。 这 里 将 这 个 简单 的 “Hello World” 转 化 成 一 
个 博客 来 重新 实现 前 面 的 Django 示例 。 这 么 做 是 为 了 让 读者 能 够 比较 Django 和 App Engine 
中 的 weabapp 框架 


12.7.1 快速 发 现 改动 : 30 秒 内 将 纯 文 本 转 成 HTML 
首先 ， 为 了 确认 每 次 更 新 代码 都 能 反映 到 开发 服务 器 上 的 应 用 中 。 需 要 向 输出 行 添加 
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<H1> </H1> 标 签 。 将 文本 改 为 其 他 任意 文本 ， 如 “The Greatest Blog", BJ “<h1>The Greatest 
Blog</hl>”。 再 次 保存 改动 〈 或 每 次 有 改动 后 都 保存 )， 确 认 后 ， 返 回 浏览 器 ， 刷 新 页 面 ， 接 
着 确认 改动 ， 如 图 12-7 所 示 。 












































The Greatest Blog 

















图 12-7 “Hello World 2” 的 改动 立即 反映 到 刷新 后 的 浏览 器 页 面 中 


12.7.2. ”添加 表单 

现在 来 进行 应 用 开发 中 重要 的 一 步 ， 即 添加 接受 用 户 输入 的 功能 。 将 插入 一 个 带 有 字段 
的 表单 ， 让 用 户 创 建新 的 博文 。 字 段 有 两 个 ， 分别 是 博文 标题 和 正文 。 修 改 后 的 
MainHandler.get0) 方 法 选择 应 该 类 似 下 面 这 样 。 























































































































class MainHandler (webapp.RequestHandler): 
def get (self): 
self.response.out.write(''' 

<hl>The Greatest Blog«/hl» 
«form action="/post" method=post> 
Title: 
<br><input type=text name=title> 
<br>Body: 
<br><textarea name=body rows=3 cols=60></textarea> 
<br><input type=submit value="Post"> 
</form> 
<hr> 


PE 
整个 方法 构成 了 Web 表单 。 的 确 ,， 如果 这 是 实际 应 用 , 所 有 HTML 应 该 位 于 模板 中 。 
图 12-8 显示 了 刷新 后 的 页 面 ， 以 及 新 的 输入 字段 。 
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E T 
e»ect 


The Greatest Blog 


Title: 





© localhost:8080 











Body: 





(submit) 





























图 12-8 向 Blog 应 用 添加 表单 字段 











现在 可 以 自行 填写 字段 ， 如 图 12-9 所 示 。 


eoo, 


| 1 Jlocalhost. 8080 


€ > CŒ ff © localhost:8080 


The Greatest Blog 


Title: 
my Ist post! 
Body: 


first post using Google App Engine's development server 





( Submit ) 














图 12-9 填写 Blog 应 用 的 表单 字段 

















与 前 面 的 Django 示例 类 似 ， 这 里 并 不 能 完全 处 理 这 些 数 据 。 用 户 填写 完 并 提交 表单 后 ， 
控制 器 无 法 处 理 这 些 数据 ， 所 以 如 果 试 图 提交 ， 要 么 会 触发 一 个 错误 ， 要 么 看 到 一 个 空白 页 
面 。 这 里 需要 添加 一 个 POST 处 理 程 序 来 处 理 新 博客 文章 ， 所 以 创建 一 个 新 的 BlogEntry 类 
和 一 个 postQZ; 1X . 





tH 





















































> 





class BlogEntry (webapp.RequestHandler) : 
def post (self): 
self.response.out.write('«b»$s«/b»«br»«hr»$s' $ ( 
self.request.get ('title'), 
self.request.get('body')) 
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注意 ， 方 法 名 称 是 post) (与 getO0 相 对 )。 这 是 因为 表单 
持 GET， 需 要 另 一 个 名 为 getO 的 方法 。 现 在 定义 好 了 类 和 方法 ， 但 如 果 
有 指定 CURL- 类 对 )， 则 应 








通过 


























无 法 用 到 这 个 处 理 程序 。 























application = webapp.WSGIApplication ([ 





('/', MainHandler), 
('/post', BlogEntry), 


], debug=True) 


过 这 些 改 动 , BAR] WS 224 














处 理 程序 指定 的 完全 相同 ， 它 显示 BlogPost 标题 及 其 


12.7.3 
AF 








I 输入 很 好 , 但 由 于 应 月 
中 有 所 区 别 。 在 Django 中， 必须 设置 数据 库 ， 首 先 编写 数据 模型 。App Engine 更 偏重 








F, E 








I 有 数据 模型 2 











单字 段 并 向 应 用 提交 。 
































ann, 


| localhost:8080/post 





€ > Q fi © localhost:8080/post vy | B a 


my Ist post! 


first post using Google App Engine's development server 





va 























HOUR Bee f 


12-10 ”表单 提交 结果 


添加 Datastore 服务 














E 何 数据 , 现在 这 是 完全 没 ) 














前 就 创建 





将 数据 存在 Blobstore 中 ， 或 存在 云端 的 其 
App Engine ff) 2848 fF fik BL fi 


Hl Æ Datastore o 





MH. KRE, HED mt 





















































他 地 方 。 


Google1R BH T E 34 3 








提交 的 是 POST 请 求 。 如 果 想 文 























和 创建 应 用 对 象 时 没 





完整 代码 如 下 所 示 。 





图 12-10 所 示 的 结果 页 面 与 postO 




















的 博客 。 这 里 与 Django 


























应 用 本 





I 有 一 个 数据 库 ， 可 以 只 用 缓存 ， 


其 与 数据 库 区 分 开 来 ， 











Datastore 在 术语 上 显示 起 来 与 database 稍 微 有 所 不 同 。Datastore 是 非 关 系数 据 库 管 理 系统 


(RDBMS)， 其 构建 在 Google 的 Bigtable" 之 上 ， 
有 Google 的 Megastore 技术 来 提供 
wE, 在 向 App Engine 生产 环境 ， 





储 。 





还 使 月 





提供 分 布 式 、 
tk 强 持久 和 高 可 





























性 。 






































可 以 用 




















标志 使 用 SQLite. 





© http;//labs.google.com/papers/bigtable.html . 


2 http;//research.google.com/pubs/pub36971.htm. 


进 制 格式 (默认 情况 下 ) 存储 数据 ， 或 在 运 




















可 扩展 、 非 关系 型 的 持久 数据 存 





部 署 应 用 时 才 用 到 Datastore。 在 开发 服务 器 上 运行 时 ， 





云 行 dev appserverpy 时 通过 --use_sqlite 
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现在 到 了 了 解数 据 模型 的 时 候 。 分 析 并 比较 Django 与 App Enging 中 的 模型 类 ， 


这 里 非常 相似 。 





# Django 


class BlogPost (models.Model): 


title = models.CharField (max length-150) 


body = models.TextField() 


timestamp - models.DateTimeField() 


# App Engine 


class BlogPost (db.Model): 


title = db.StringProperty () 


body = db.TextProperty () 


timestamp = db.DateTimeProperty (auto_now_add=True) 





对 于 App Engine 应 月 
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并 注意 


月 ， 需 要 将 这 个 模型 添加 到 已 有 的 main.py 文件 中 ， 没 有 等 价 的 


models.py 文件 ， 除 非 自 行 显 式 地 创建 它 。 不 要 忘 了 通过 下 面 的 导入 语句 添加 Datastore 





服务 。 








from google.appengine.ext import db 





如 果 读 者 是 Django-nonrel 用 户 ， 
直接 使 用 Django 定义 的 类 ， 而 不 使 月 
























































无 论 在 开发 时 使 




















| 或 选择 什么 类 ， 














意味 着 更 想 让 Django 应 用 运行 在 App Engine 上 ， 可 以 


H App Engine 数据 模型 。 


现在 都 可 以 通过 底层 的 持久 存储 机 制 获取 数 

















储 能 力 。 创 建 这 个 类 仅仅 是 第 一 步 。 存 储 实际 数据 需要 执行 与 之 前 在 Django 中 相同 











创建 实例 ， 填 写 用 户 数 据 ， 保 存 。 对 于 这 个 应 月 























TEAR fr] E 


























值 给 对 应 的 变量 。 时 间 戳 是 可 选 的 ， 


























通过 调用 数据 实例 的 put0 方 法 将 其 保存 至 App Engine 的 Datastore 中 ， 接 着 将 月 











MAREK, KA 



































， 直 接 将 填写 的 内 容 显示 出 来 ， 既 没 用 ， 也 不 持久 。 
标题 和 正文 都 很 简单 ， 在 创建 实例 后 ， 将 其 从 提交 的 表单 数据 
因为 现在 根据 实例 创建 时 间 自 动 设置 。 当 对 象 完成 后 ， 
日 户 重 定向 至 
























































jH Django 版 本 中 所 做 的 那样 。 





下 面 是 新 的 BlogEntry.post0 方 法 ， 其 中 含有 刚刚 讨论 的 所 有 改动 。 





class BlogEn 





def post (self): 


post = BlogPost () 





try (webapp.RequestHandler): 


post.title = self.request.get('title') 


post.body = self.request.get('body') 


post.put () 
self.redirect('/') 





Bide ATE 
的 步骤 : 


H, WBM postO 方 法 中 的 代码 。 现 在 的 方 








提取 出 来 ， 作 为 属性 赋 
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H 


注意 ， 现 在 完全 替换 掉 了 之 前 只 









































iA 





户 输入 内 容 的 post0 方 法 。 在 前 面 的 例子 中 ， 

















没 




















有 将 数据 保存 至 持久 存储 中 。 通 过 这 个 大 由 
同样 ， 需 要 对 GET 处 理 程序 进行 相应 的 改动 。 























具体 来 说 ， 应 该 显示 之 前 的 博文 ， 因 























下 改动 。 


class MainHandler (webapp.RequestH 


def get (self): 


self.response.out.write(' 


为 现在 








andler): 


«hl»The Greatest Blog«/hl» 


«form action="/post" method=post> 


Title: 
<br><input type=text 
<br>Body: 


name=title> 





而 度 改 动 ， 将 博文 的 所 有 数据 保存 至 Datastore 中 。 








已 经 能 够 持久 存储 用 户 数据 。 在 这 个 简单 的 
示例 中 ， 首 先 显 示 表 单 ， 接 着 转 储 任何 已 有 的 BlogPost 对 象 。 向 MainHandler get(0 方 法 做 以 








<br><textarea name=body rows=3 cols=60></textarea> 


<br><input type=submit value="Post"> 


</form> 
<hr> 
VM 


#posts = db.GqlQuery ("SELECT * FROM BlogEntry") 


posts = BlogPost.all(í) 
for post in posts: 


self.response.out.write('''<hr> 


<strong>%s</strong><br>%s 


<blockquote>%s</blockquote>''' $ ( 


post.title, post.timestamp, post.body) 


) 















































示 给 





JF. App Engine 提供 了 两 种 查询 数 





一 种 是 以 “对 象 ”的 方式 ， 类 似 Django 的 查询 机 

















这 些 代 码 为 客户 端 生成 HTML 表单 。 在 此 之 后 ， 添 加 从 Datastore 获取 结果 的 代码 ， 显 


央 ， 即 请 求 BlogPost.all0《〈 类 似 Django 









































的 BlogPost.objects.all()). App Engine 也 通 





的 查询 语言 语法 ， 即 GQL。 
因 























为 无 法 处 理 所 有 的 SQL (如 没有 JOIN )， 且 使 
建议 使 用 本 地 对 象 的 方式 。 但 如 果实 在 无 法 接受 这 种 方式 ， 能 使 用 








掉 的 GQL 语句 执行 等 价 的 功能 。 最 后 ， 末 尾 的 循环 仅 





图 12-12 和 图 






































入 相同 的 博文 ， 可 以 看 到 有 所 区 别 ， 如 
12-13 显示 现在 可 以 连续 添加 博客 项 ， 确 认 能 保存 用 











过 SQL 提供 了 男 一 种 更 方便 的 方式 ， 使 











简化 版 














] SQL 不 符合 Python 风格 ， 所 以 强烈 


























BlogPost.all() 上 面 注 释 
又 遍历 每 个 实体 ， 并 显示 每 篇 博文 合 





























图 12-11 所 示 。 
户 数 据 。 
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€ 


»c f [o localhost:8080 








my Ist post! 
2010-12-24 10:16:41 535020 


first post using Google App Engine's development server 








图 12-11 表单 提交 结果 (保存 到 Datastore 中 ) 


The Greatest Blog 


Title: 
life is good... 
Body: 
web programming with Dianga or App Engine! 





my Ist post! 
2010-12-24 10:16:41 535020 
first post using Google App Engine's development server 





12-12 ”为 第 二 个 BlogPost 填写 表单 








The Greatest Blog 
Title: 


Body: 





life is good... 
2010-12-24 10:17:35.907203 
web programming with Django or App Engine! 


my Ist post! 
2010-12-24 10:16:41.535020 


first post using Google App Engine's development server 








图 12-13 第 二 个 BlogPost 对 象 ， 保 存 后 再 显示 
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12.7.4 迭代 改进 


与 前 面 的 Django 示例 类 似 ， 现 在 按时 间 逆 序 排列 博文 ， 并 只 显示 最 近 的 10 篇 文章 ， 以 
此 来 让 博客 更 具 实用 性 。 下 面 就 是 需要 对 查询 行 所 要 做 的 改动 〈 以 及 等 价 的 GQL 改动 )。 







































































#post = db.GqlQuery("SELECT * FROM BlogEntry O 
DESC LIMIT 10") 
posts - Bl 


RDER BY timestamp 





ogPost.all().order('-timestamp').fetch(10) 


对 比 Diango 的 查询 以 发 现 相 似 性 








posts = BlogPost.objects.all().order by('-timestamp')[:10] 


所 有 其 他 内 容 保 持 不 变 。 关 于 在 Google App Engine 中 查询 的 更 多 内 容 ， 可 以 访问 对 应 的 文档 
页 面 ， 参 见 http://code.google.com/appengine/docs/python/datastore/creatinggettinganddeletingdatahtml 。 


12.7.5 ”开发 /SDK 控制 台 
Datastore 查看 器 























与 Django 的 admin 应 用 相 比 ， 这 个 功能 显得 有 点 弱 。App Engine 带 有 一 个 开发 控制 台 。 
可 通过 在 Launcher 中 单 击 SDK Console 按钮 启动 这 个 控制 台 。 如 果 没 有 Launcher， 需 要 手动 
输入 特定 的 URL 即 http:Wlocalhost:8080/_ah/admin/datastore 。 该 页 面 显示 的 是 Datastore 查看 
器 ， 如 图 12-14 所 示 。 
Datastore 查看 器 中 可 以 创建 应 用 中 定义 的 任何 实体 的 实例 。 在 这 个 例子 ' 
BlogPost。 还 可 以 查看 Datastore 中 对 象 的 内 容 。 图 






























































r= 
X 




























































































BH 
12-15 显示 了 之 前 创建 的 两 篇 博文 。 























O ; 
e 5 o blog Development Console 


em 





€ 2 C fi © localhost:8080/_ah/admin/data «4 3 [rry q 





~ SDK v1.4.0 
Gor gle App Engine 





blog Development Console 


Datastore Viewer 
Datastore Viewer 


Interactive Console Entity Kind: 


M he Vi “BlogPost (i$) ( List Entities ) (Create New Entity ) 
Select different namespace 





Task Queues 


inbound Mail 








DS 














12-14 App Engine 中 SDK Console 里 的 Datastore 查看 器 
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ie efi © localhost:8080/_ah/admin/datastore?kind=BlogPost 


Google App Engine 
blog Development Console 


wer Datastore Viewer 


Entity Kind: Results 1-20f2 | 


[ BlogPost 18) (List Entities ) (Create New Entity ) 
Select different namespace 





timestamp tite 


first post using Google 2010-12-24 my ‘st 
App Engine's 10:16:41 post! 
development server 

web programming with 2010-12-24 life is 
Django or App Engine! 10:17:35 good... 


1 





图 12-15 ”查看 已 有 的 BlogPost 对 象 





交互 式 控制 台 


在 前 面 看 到 了 Django 在 开发 过 程 中 提供 了 一 个 Python shell。 尽 管 App Engine 没有 完全 
相同 的 功能 ， 还 也 可 以 进行 相似 的 操作 。 单 击 SDK Console 中 导航 链接 左边 的 Interactive 
Console 链接 ， 会 转 到 一 个 页 面 左 边 有 编码 面板 右边 有 结果 显示 区 域 的 Web 页 面 。 在 这 里 ， 
可 以 输入 任何 Python 命令 并 观察 执行 结果 。 图 12-16 显示 了 一 个 示例 结果 。 











Google App Engine 
blog Development Console 
Interactive Console 





‘from main import BlogPost posts: 2 
my ist post! 
print ‘@posts: ', BlogPost.all( life ís good... 
keys only*True).count() 
posts = BlogPost.all() 
for post in posts: 


print post.títlo 








12-16 ”在 Interactive Console 中 执行 代码 
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这 里 的 代码 非常 简单 ， 如 下 所 示 。 


from main import BlogPost 





print '#posts: ', BlogPost.all(keys only-True).count() 
posts = BlogPost.all() 
for post in posts: 

print post.title 


这 段 代码 非常 简单 简单 。 其 中 可 能 引起 兴趣 的 是 第 一 条 print 语句 ， 显 示 本 地 Datastore 
中 当前 BlogPost 对 象 的 数目 。 读 者 也 许 会 想到 使 用 BlogPostal0， 但 这 个 函数 返回 的 查询 结 
果 是 Query 对 象 ， 而 不 是 序列 ， 且 BlogPost 没有 重 写 _len (0. 所 以 无 法 对 其 使 用 len0。 唯 
一 的 方式 是 使 用 count0 方 法 ， 下 面 有 进一步 的 介绍 。 

http://code.google.com/appengine/docs/python/datastore/ 






































































































































queryclass.html#Query_count 
单 击 “Run Program” 按 钮 就 可 以 了 。 

另 一 个 需要 注意 的 是 ， 通 过 交互 式 命令 行 指定 的 代码 会 直接 访问 本 地 的 Datastore。 与 
Django 博客 示例 类 似 , 可 以 使 用 Python 代码 自动 生成 更 多 的 实体 ,如 下 面 的 代码 生成 图 12-17 
中 的 内 容 。 


from datetime import datetime 













































































from main import BlogPost 


for i in xrange(10): 
BlogPost( 
title-'post #%d' $ i, 
body='body of post #%d' $ i, 
timestamp-datetime.now() 
).put () 
print 'created post #%d' $ i 


图 12-18 演示 了 现在 可 以 根据 时 间 惟 逆序 排列 ， 并 查看 原先 的 两 个 BlogPost 对 象 ， 以 及 
12-17 中 生成 的 10 个 对 象 。 


from main import BlogPost 





























i 





print '#posts: ', BlogPost.all( 
keys only-True).count() 

posts = BlogPost.all().order( 
'-timestamp') 

for post in posts: 
print post.title 
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核心 提示 : 计数 
尽管 使 用 Django 和 关系 数据 库 计 数 很 简单 ， 但 必须 承认 App Engine 无 法 方便 地 计数 ， 
因为 其 使 用 的 是 大 规模 的 分 布 式 存储 。 没 有 任何 表 ， 没 有 SQL， 这 意味 着 无 法 对 BlogPost 
执行 类 似 SELECT COUNT(*) 这 样 的 SQL 语句 。 许 多 开发 者 需要 对 应 用 创建 一 个 业务 处 理 
计数 器 ， 或 对 许多 业务 创建 一 个 “共享 计数 器 *。 更 多 信息 ， 参 考 以 下 链接 。 
e http://code.google.com/appengine/articles/sharding_counters.html 
e  http://code.google.com/appengine/docs/python/ datastore/ queriesandindexes.html# 
Query_Cursors 
e  http;//googleappengine.blogspot.com/2010/08/multi-tenancy- support-high-performance_ 
17.html 
iiA. App Engine Hits feel BH, BEATOS, VARIA iE fe AC KH 
要 小 于 1000 个 。 通 过 1.3.1 版 中 额外 的 游标 ， 这 条 限制 移 除了 ， 所 以 现在 无 论 是 获取 、 遍 
历 ， 或 者 使 用 游标 ， 都 没有 上 限 。 但 这 条 限制 仍然 影响 计数 和 偏 移 里 ， 意 味 着 为 了 统计 实 
体 数目 ， 仍 然 需要 游标 来 遍历 数据 集 。 在 1.3.6 版 中 ， 这 个 限制 移 除 了 。 
现在 在 Query 对 象 上 调用 count() 要 么 返回 实体 的 准确 数目 ， 要 么 超时 。 就 像 文档 中 对 
count() 的 说 明 ， 不 应 该 用 这 个 函数 来 对 大 量 的 实体 进行 计数 : “最 好 在 数目 较 小 的 情况 下 使 
用 countO0， 或 者 指定 一 个 上 限 。countO 没 有 最 大 上 限 。 如 果 不 指定 上 限 ，Datastore 会 一 直 
计数 ， 直 到 完成 或 超时 .” 再 次 提醒 ， 该 函数 可 能 和 期 望 的 不 同 ， 但 仍然 算是 App Engine 
在 2010 年 年 初 之 前 的 重大 改进 。 
再 次 提醒 ， 最 好 的 开发 实践 是 不 要 总 是 计数 。 如 果 需 要 计数 ， 则 维护 一 个 计数 器 。 仅 
仅 需 要 改变 使 用 App Engine Datastore 的 思维 方式 。 失 去 了 这 个 之 前 用 过 的 功能 ， 换 来 的 是 
复制 和 扩展 性 。 在 之 前 ， 构 建 这 两 个 功能 的 开销 非常 庞大 。 
另外 一 个 提示 是 如 果 需 要 计数 , 只 对 键 计 数 。 换 名 话说 , 如 果 创 建 了 查询 对 象 , 传递 key_only 
标记 并 设 为 Tue， 这样 就 无 须 从 Datastore 中 查询 所 有 实体 ， 如 BlogPost.all(key_ only=True). F 
面 是 与 其 相关 一 些 有 用 的 链接 。 
e http://code.google.com/appengine/docs/python/datastore/queryclass.html#Query 
e http://code.google.com/appengine/docs/python/datastore/modelclass.html#Model_all 
e http://code.google.com/appengine/docs/python/datastore/queriesandindexes.html# 
Queries on Keys 
最 后 ，App Engine 团队 撰写 了 一 系列 的 文章 帮助 用 户 了 解 Datastore。 可 以 通过 下 面 这 
个 链接 访问 。 


http://code.google.com/appengine/articles/datastore/overview.html 


其 至 可 以 回 到 Datastore 查看 器 来 了 解 每 个 实体 更 多 的 信息 ， 如 图 12-19 所 示 。 
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| © locathost:8080/_ah/admin/interactive 
Google App Engine 
blog Development Console 
Interactive Console 





from datetime import datetime 
from main import BlogPost 


for i in xrange(10): 
BlogPost( 
title='post #td' à i, 
body="body of post #td" à i, 
timestamp=datetime.now() 
)-put() 
print ‘created post #4d° t i 





created post #0 
created post #1 
created post #2 
created post #3 
created post #4 
created post #5 

reated post #6 
created post #7 
created post #8 

reated post #9 








Google App Engine 
blog Development Console 
Interactive Console 





from main import BlogPost 


um "éposts: ', BlogPost.all( 
keys only-Truce).count() 
poste = BlogRoat.all().order( 
'-kimestamp!) 

for post in posts: 

print post.title 











my 1st post! 





12-18 同时 显示 新 旧 实 体 
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eoo; [blog Development Console = VLL. 
€ > Œ fF © localhost:8080/_ah/admin/datastore%ind=BlogPost D a 3 EY 
SDK v1.4.0 
Google App Engine 
blog Development Console 
Datastore Viewer 
Datastore Viewer 
Ini ti Entity Kind: Results 1 - 10 of 12 
i [ BlogPost ES) (List Entities ) (Create New Entity ) 
Select different namespace 
Task Queues 
Cron Jobs O Key ID KeyName body timestamp titio 
XMPP O agRibGon. 3 first post using 2010-12-24 my ist 
Google App Engine's 10:16:41 post! 
Inbound Mail development server 
a agRibG9n.. 4 web programming with 2010-12-24 life is 
Django or App Engine! — 10:17:35 good.. 
O agRibGm. 5 body of post #0 2010-12-25 post 
09:35:59 #0 
日 agRibG9n.. 6 body of post #1 2010-12-25 post 
09:35:59 #1 
ag agRibG9n... y96 body of post $2 2010-12-25 post 
09:35:59 #2 
g aogRibG9n 8 body of post #3 2010-12-25 post 
09:35:59 #3 
Bg agRibG9n.... 9 body of post #4 2010-12-25 post 
09:35:59 "A 
日 agRibG9n.. 10 body of post #5 2010-12-25 ^ post 
09:35:59 #5 
g agRibG9n... 11 body of post 46 2010-12-25 post 
09:35:59 #6 
O agRibG9n... 12 body of post #7 2010-12-25 post 
09:35:59 #7 

















Fd] 12-19 ”通过 使 用 交互 式 命令 行 改变 实体 显示 顺序 





如 果 不 想 让 这 些 假 的 BlogPost 项 污染 了 数据 ， 可 以 用 下 面 的 代码 移 除 它 ， 执 行 结果 如 
12-20 所 示 (在 返回 “Intercative Console” 之 后 )。 








from google.appengine.ext import db 
from main import BlogPost 


posts = BlogPost.all(keys only-True 
).order('-timestamp').fetch(10) 

db.delete (posts) 

print 'DELETED newest 10 posts' 


如 果 粘 贴 、 复 制 这 段 “ 数 据 转 储 ” 代 码 ， 接 下 来 可 以 确认 已 经 完成 了 删除 工作 。 

这 就 是 开发 中 的 所 有 内 容 。 此 时 ， 需 要 在 实际 应 用 和 生产 环境 的 Datastore 中 拥有 相同 的 
功能 。 这 里 可 以 使 用 两 个 相似 的 工具 。 

在 生产 环境 中 ， 可 以 使 用 远程 API 为 应 用 添加 一 个 shell (更 多 内 容 参 考 12.11 W). WR 
WA Admin 控制 台 启 用 了 Datastore Amin， 还 可 以 将 数据 整体 删除 或 复制 到 另 一 个 App Engine 
应 用 中 。 
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这 就 是 对 SDK 控制 台 的 简要 介绍 。 当 然 ，SDK 控制 台 没 有 Admin Console 那么 多 功能 ， 但 
它 仍然 是 一 个 有 用 的 开发 工具 。 后 面 会 再 次 用 到 。 这 里 先 介绍 应 用 需要 用 到 的 另 一 个 服务 : 缓存 。 
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_ blog Development Console 








F ^ f | 
localhost:.8080/ ah/admin/int tivi zy 
€ > C fi © localhos _ah/admin/interactive 让 | 3 V) A} 





~ SOK v1.4.0 
Gor gle App Engine 


blog Development Console 
Interactive Console 

Datastore Viewer 
Intoractive Console from go este appengi xt import db | DELETED newest 10 posts 

= vi 7 from m n impor rt Blo peine st 
T: ae eere rs rris all(ko: 
Dunt lioras zi Here id 35 we tc En 10) 
Cron Jobs db.de 


e(p 
pi Dee pilosis st 10 posts 


( Run Program ) 











图 12-20 ”删除 BlogPost 


12.8 添加 Memcache 服务 








App Engine 的 新 用 户 会 感觉 数据 库 的 访问 非常 慢 。 这 仅仅 是 相对 来 说 ， 但 读者 会 认为 与 
标准 的 关系 型 数据 库 相 比 ，GAE 的 速度 的 确 要 慢 。 但 要 记 住 ， 这 里 有 一 个 很 重要 的 折 中 ， 为 
了 换 来 在 云端 分 布 式 、 可 扩展 、 多 副本 的 存储 ， 会 遇 到 访问 速度 慢 的 问题 。 因 为 大 家 都 知道 ， 
不 可 能 不 劳 而 获 。 提 升 速度 的 一 种 方式 是 通过 缓存 来 让 数据 与 应 用 “更 近 ”， 而 不 是 直接 
访问 Datastore。 

高 流量 的 页 面 很 少 受 限 于 Web 服务 器 能 发 送 多 少数 据 到 客户 端 。 瓶 颈 一 般 在 于 数据 的 生 
成 ， 数据库 可 能 无 法 快速 应 答 ， 或 服务 器 的 CPU 不 停 地 为 所 有 请 求 执 行 同样 的 代码 。 还 在 为 
多 个 请 求 获取 或 计算 相同 的 数据 负载 上 浪费 资源 。 
通过 将 数据 放 在 更 高 的 层次 ， 更 接近 请 求 ， 以 此 来 减少 数据 库 或 用 于 生成 返回 结果 的 代 
码 所 要 完成 的 任务 。 中 间 缓 存 是 临时 存储 获取 数据 最 好 的 地 方 。 通 过 这 种 方式 ， 对 于 相同 的 
请 求 ， 客 户 端 可 以 重复 发 送 相 同 的 数据 ， 而 无 须 重 新 获取 数据 或 为 不 同 的 用 户 重 新 计算 。 如 
果 发 现 应 用 为 不 同 的 查询 重复 获取 相同 的 实体 ， 这 一 点 就 对 App Engine 用 户 非常 重要 。 

对 和 象 缓存 的 一 般 模 式 (在 App Engine 或 其 他 框架 中 ) 如 下 : 检查 缓存 是 否 含 有 所 需 的 数 
据 。 如 果 有 ， 直 接 返 回 。 否 则 ， 获 取 并 缓存 这 个 数据 。 
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如 果 使 用 伪 代 码 编写 上 面 的 动作 , 类 似 下 面 这 档 














HT 
II 





























， 其 中 使 用 一 些 常量 KEY 存储 缓存 的 数据 。 








data = cache.get (KEY) 
if not data: 
data = QUERY() 
cache.set(KEY, data) 
return data 





ANDA 


的 QUERY， 这 引入 了 App Engine 底层 兼容 Memcache 的 API. 


from google.appengine.api import memcache 


不 要 惊讶 ， 这 基本 上 就 是 解决 方案 的 Python 代码 。 其 中 只 少 了 KEY 的 值 和 一 个 数据 库 
































在 应 用 程序 的 代码 中 ， 向 MainHandler.get(0) 方 法 中 获取 数据 部 分 的 两 侧 添 加 了 几 行 代码 ， 
只 有 在 没有 绥 存 数据 集 的 情况 下 才 会 从 Datastore 查询 。 
修改 前 : 























posts = BlogPost.all().order('-timestamp').fetch(10) 
for post in posts: 


posts = memcache.get(KEY) # check cache first 
if not posts: 


posts - BlogPost.all().order('-timestamp').fetch(10) 


memcache.add(KEY, posts) 4 cache this object 
for post in posts: 


不 要 忘 了 为 缓存 设置 键 ， 即 KEY = posts'. 


通过 这 个 add0 调 用 ， 可 以 有 效 地 缓存 对 象 ， 除 非 显 式 删 除 它 “〈 下 面 会 看 到 )， 或 为 最 近 
bu CEDERE 为 感 兴趣 的 读者 介绍 一 下 ，Memcache API 使 用 了 最 近 最 


少 使 用 算法 〈Least Recently Used，LRU)。 第 三 种 方式 是 带 有 期 限 的 缓存 。 例 如 ， 如 果 想 缓存 
某 个 对 和 象 一 分 钟 ， 则 可 以 这 样 调 


memcache.add (KEY, posts, 60) 


最 后 一 个 难点 是 在 新 博客 条 目 进来 的 时 候 验证 缓存 。 为 了 做 到 这 一 点 ， 在 代码 中 通过 
BlgoEntrypost(O) 向 Datastore 发 送 新 条 目 时 刷新 缓存 。 
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post.put () 
memcache.delete (KEY) 
self.redirect('/') 
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完成 这 样 改动 之 后 ， 可 以 在 浏览 器 中 尝试 。 但 由 于 这 个 应 用 中 使 用 的 数据 集 较 小 ， 很 难 
判断 数据 是 来 自 缓存 还 是 来 自 Datastore。 最 简单 的 方法 是 在 SDK Console 中 使 用 Memcache 
查看 器 ( 见 图 12-21)。 

为 了 看 到 处 理 过程 , 需要 两 个 浏览 器 窗口 , 一 个 用 于 打开 应 用 , 另 一 个 打开 SDK Console 
中 的 Memcache 查看 器 。 要 保证 在 应 用 中 有 一 些 Blogpost 对 象 ， 接 着 刷新 若干 次 应 用 的 浏览 
器 页 面 。 然 后 刷新 Memcache 查看 器 页 面 ， 观 察 mamcache 使 用 情况 。 这 里 已 经 完成 了 一 遍 ， 
所 以 能 在 图 12-22 中 看 到 使 用 结果 。 

应 该 会 看 到 一 个 未 命中 缓存 ,但 后 续 都 会 命中 ,意味 着 只 有 在 第 一 次 时 访问 了 Datastore， 
为 用 户 在 第 一 次 获取 数据 后 提高 了 性 能 。 关 于 App Engine 的 Memcache API 的 更 多 内 容 ， 阅 
读 这 个 链接 中 的 文档 : http://code.google.com/appengine/docs/python/memcache。 


eoo / ['] blog Development Console x VES 
€ > Œ fF © localhost:8080/_ah/admin/memcache 


Google App Engine 
























































































blog Development Console 

. Memcache Viewer 
Datastore Viewer 
Interactive Console * Hit ratio: 096 (0 hits and 0 misses) 
Memcache Viewer 


* Size of cache: 0 items, 0 bytes ( Flush Cache ) 














Task Queues e Cache contains items up to 0 minutes old. 
Cron Jobs 
XMPP Key: ( Display ) ( Edit/Create ) ( Delete ) [4 








图 12-21 Memcache 查看 器 目前 是 空 的 























BEE D) blog Development Console - Was 


€ > Q fW © localhost:8080/_ah/admin/memcache 








Google App Engine 





blog Development Console 


, Memcache Viewer 
Datastore Viewer 


Interactive Console * Hit ratio: 8396 (5 hits and 1 miss) 


Memcache Viewer * Size of cache: 1 item, 2.7 KB ( Flush Cache ) 


e Cache contains items up to 0 minutes old. 





( Display ) Edit/Create ) ( Delete ) vt 


* 








图 12-22 Memcache 查看 器 显示 了 一 些 使 用 情况 
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第 11 章 没 有 介绍 缓存 。Django 有 不 同 层次 的 缓存 服务 ， 包 括 这 里 所 做 的 对 象 缓存 ， 还 

有 QuerySet 缓存 ， 帮 助 将 底层 的 对 象 缓存 起 来 。 关 于 不 同类 型 的 Django 缓存 的 更 多 内 容 ， 

可 以 查看 Python Web Development with Django 一 书 的 第 12 章 。 
Bori 去 获取 重复 数据 的 时 间 ， 对 象 层 次 的 缓存 仅仅 是 其 































































































中 一 种 方式 。 然 而 数据 并 

是 来 自 数据 库 。Web 页 面 通常 还 包括 许多 静态 文件 。App Engine 也 为 开发 者 在 这 种 情况 
T 如 在 适当 的 地 方 使 用 HTTP Cache-Control 头 来 请 求 上 游 缓 存 。 如 果 
可 以 通过 边缘 或 代理 缓存 ， 则 可 以 直接 向 客户 端 返回 数据 ， 此 时 无 须 使 用 App Engine 应 用 。 


12.9 ”静态 文件 


除了 含有 动态 数据 之 外 , Web 页 面 还 有 静态 元 素 。 这 包括 图 片 、CSS、 文 本 (XML、JSON， 
或 其 他 标记 语言 )、JavaScript 文件 。 除 了 让 开发 者 通过 处 理 程序 获取 这 些 数据 之 外 ， 还 可 以 
在 app.yaml 配置 文件 中 指定 一 个 静态 文件 目录 ， 让 App Engine 直接 返回 这 些 数据 。 需 要 在 
app.yaml 中 的 handlers 部 分 添加 一 个 专门 的 处 理 程序 。 它 类 似 下 面 这 样 。 


handlers: 

































































































































































































































































对- 而 














- url: /static 


static dir: static 


- url: .* 
script: main.py 

这 里 将 静态 处 理 程序 放 在 第 一 个 位 置 , 这 样 对 “/static” 路 径 匹配 的 请 求 就 会 第 一 个 处 理 。 
其 他 路 径 会 由 main.py 中 的 处 理 程序 处 理 。 这 意味 着 处 理 静 态 文 件 时 不 用 执行 应 用 代码 。 

实际 上 ， 为 什么 直接 查找 拥有 的 .j$、.css， 或 任何 静态 文件 呢 ? 以 main.css 为 例 ， 在 顶层 
目录 Capp.yaml 和 main.py 文件 所 在 的 位 置 ) 创建 一 个 名 为 static MCLE, E app.yaml， 添 
加 相应 的 内 容 。 启 动 开 发 服务 器 ， 使 用 浏览 器 访问 http://localhost:8080/static/main.css。 在 生产 
环境 中 也 会 这 样 起 作用 。App Engine 可 以 直接 访问 静态 数据 ， 无 须 使 用 应 用 程序 的 处 理 程序 。 


12.10 添加 用 户 服务 


ER 11 章 中 ， 对 于 Django 博客 ， 没 有 添加 任何 验证 内 容 《〈 用 户 、 密 码 、 账 号 等 )， 但 在 
TweetApprove 应 用 中 使 用 了 Django 自己 的 验证 系统 。 类 似 地 ， 在 这 里 使 用 Google 账号 在 博 
客 中 进行 验证 。 确保 只 有 作者 能 向 页 面 添加 新 的 博文 。 如 果 其 他 人 能 修改 ,就 成 了 留言 禾 
不 应 该 对 添加 验证 系统 感到 吃惊 。 假 设 读者 需要 创建 一 个 企业 级 的 博客 ， 类 似 TechCrunch, 
Engadget 等 。 博 客 需要 支持 多 个 作者 ， 只 有 博客 作者 才能 发 布 博文 ， 而 不 是 任何 人 都 可 以 在 
某 个 人 的 博客 中 发 布 博 文 。 
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12.10.1 Google 账号 验证 


创建 App Engine 应 用 之 后 ， 默 认 使 用 的 验证 是 Google 账号 。 但 如 果 不 向 配置 设置 或 实 
际 代码 中 添加 任何 验证 机 制 ， 实 际 上 就 没有 任何 验证 机 制 。 任 何人 都 可 以 发 布 博客 。 现 在 在 
MainHandlergetO 的 起 始 处 添加 几 行 代码 来 增加 验证 功能 ， 如 下 所 示 。 

































































from google.appengine.api import users 


class MainHandler (webapp.RequestHandler): 
def get(self): 
user = users.get current user() 
if user: 
self.response.out.write('Hello $s' $ user.nickname()) 
else: 
self.response.out.write('Hello World! [<a href=%s>sign 
in</a>]' % ( 
users.create login url(self.request.uri))) 


self.response.out.write('«hl»The Greatest Blog«/hl»') 


if user: 
self.response.out.write(''' 
«form action="/post" method=post> 
Title: 
<br><input type=text name=title> 
<br>Body: 
<br><textarea name=body rows=3 cols=60></textarea> 
<br><input type=submit value="Post"> 
</form> 
<hr> 


trr) 


posts = memcache.get (KEY) 

if not posts: 
posts = BlogPost.all().order('-timestamp').fetch(10) 
memcache.add (KEY, posts) 

for post in posts: 
self.response.out.write( 

"<hr><strong>%s</strong><br>%s 
<blockquote>%s</blockquote>' % ( 


post.title, post.timestamp, post.body 





如 果 不 想像 上 面 这 样 通过 特定 的 代码 i 
任何 人 访问 


须 添加 login: required 命令 即 可 。 





第 12 章 airs: 











上 














登录 。 下 面 是 一 个 使 用 该 命令 的 示 
序 : 
2 
script: main.py 
login: required 





另 一 种 方式 是 login: amdin， 这 种 方式 只 有 应 用 1! 
非 管理 员 
的 更 多 信息 ， 可 以 











如 关键 用 户 、 应 用 、 数 据 访问 或 
才 可 以 处 理 。 关 于 这 些 指令 








R 例 ， 所 有 没有 使 朋 
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H Google 账 








处 理 。 






































登录 管理 员 




















访问 这 


已 才能 


访问 相应 的 处 理 程 





J K, PUE app.yaml 配置 层面 完成 验证 。 只 
这 个 页 面 ， 在 使 用 应 用 或 看 到 内 容 之 前 ， 都 需要 先 
号 登录 的 人 都 无 法 访问 主 处 理 程 





序 ， 


























员 用 户 会 得 到 一 个 错误 页 面 ， 


docs/python/ config/appconfi NACER EC HODIE o 


12.10.2 ”联合 验证 


WOR AN AE GE SE A CL I UE A 
OpenID i 
不 限于 Yahool、 





























A 
yahoo.com, myspace.com, aol.com 等 














Identity Toolkit (GIT) ! 
KF GIT 和 OpenID 的 更 多 
e 
e 
e 


http://openid.net 


























12.11 远程 APlshe 
为 了 使 
如 下 所 示 。 
- url: /remote api 
Script: 
login: admin 


urls. D* 








， 或 不 想 要 求 所 有 
行 联合 登录 。 有 了 OpenID, WHR 






































F 用 户 使 
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他 应 


As kn E] 
告知 只 
个 链接 http://code.google.com/appengine/ 


JAAA Google 账号 ， 可 能 会 





管理 员 


TH3 


JU 
































使 用 联合 登录 ， 需 要 调整 创建 登录 的 链接 ， 添 力 


users.create_login_url(federated_identity=URL), 





其 中 URL 是 任何 OpenID 提供 商 
)。 未 来 对 联合 验证 的 支持 可 能 会 
内 容 ， 参 考 下 面 的 链接 。 














http://code.google.com/apis/identitytoolkit/ 
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http://code.google.com/appengine/articles/openid.html 





H federated identity 








http://code.google.com/appengine/docs/python/users/ overview.html 











的 账号 登录 应 用 ， 包 括 但 
Flickr, WordPress, Blogger, LiveJournal, AOL, MyOpenID, MySpace, 其 


参数 ， 如 


(gmail.com, 


集成 进 新 的 Google 





程序 上 方 添加 下 面 的 内 容 ， 





远程 API shell, 在 app.yaml 文件 中 需要 在 应 用 的 处 至 


SPYTHON_LIB/google/appengine/ext/remote_api/handler.py 
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Script: main.py 


如 果 在 该 文件 中 还 有 前 面 提 到 的 静态 文件 部 分 ， 两 者 的 顺序 不 影响 远程 API 创建 处 理 程 
序 。 重 要 的 是 ， 二 者 都 必须 在 主 处 理 程序 前 面 。 在 前 面 的 例子 中 ， 删 除了 静态 文件 的 内 容 ， 
同时 还 添加 了 显 式 的 管理 员 登 录 ， 因 为 可 以 确定 不 想 其 他 人 访问 生产 环境 中 的 Datastore。 

此 时 需要 用 一 个 应 用 的 数据 模型 的 本 地 版 本 。 在 正确 的 目录 下 执行 下 面 的 命令 (将 ID 
换 成 实时 生产 环境 的 应 用 )， 提 供 合 适 的 验证 信息 。 

$ remote api shell.py APP ID 


Email: YOUR EMAIL 


Password: ***** 
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nil 











App Engine remote api shell 
Python 2.5.1 (r251:54863, Feb 9 2009, 18:49:36) 

[GCC 4.0.1 (Apple Inc. build 5465)] 

The db, users, urlfetch, and memcache modules are imported. 
APP ID» import sys 

APP ID» sys.path.append('.') 

APP ID» from main import * 

APP ID» print Greeting.all(keys only-True).count() 

24 


这 个 远程 API shell 只 是 为 实时 运行 的 应 用 提供 一 个 Python 交互 式 解释 器 。 远 程 API 还 
有 其 他 用 途 , 最 著名 的 是 从 应 用 的 Datastore 中 大 量 上 传 或 下 载 数据 。 关 于 使 用 远程 API 的 更 
多 内 容 ， 可 以 了 解 官方 文档 ， 参 见 http://code.google.com/appengine/articles/remote_api.html.. 

























































































Datastore Admin 


Datastore Admin 是 最 近 添 加 的 特性 , 用 于 向 实时 应 用 的 管理 控制 台 (不 是 SDK 开发 服务 
器 的 控制 台 ) 中 添加 组 件 。 能 够 删除 大 量 《 或 所 有 ) 特定 类 型 的 实体 ， 以 及 向 其 他 实时 应 用 
复制 实体 。 eA RHC 必须 是 可 读 模 式 。 为 了 启用 Datastore Admin, 向 app.yaml 
文件 中 添加 下 面 的 内 容 。 


builtins: 


































































































- datastore admin: on 


无 须 强 记 下 这 项 内 容 , 因为 所 要 做 的 只 是 在 Admin Console 中 单 击 Datastore Admin 链接 。 
如 果 还 没有 启用 它 ，Admin Console 会 提示 需要 在 app.yaml 启用 这 个 配置 。 
启用 配置 后 , 单 击 它 会 弹出 一 个 或 两 个 登录 窗口 , 接着 应 该 能 看 到 如 图 12-23 所 示 的 内 容 。 
若 想 了 解 启 用 Datastore Amin 的 app.yaml 示例 ， 以 及 允许 男 一 个 应 用 从 当前 应 用 复制 所 
有 实体 的 appengine_config.py 文件 ， 访 问 http://code.google.com/p/ google-app-engine 
-samples/source/browse/#svn%2Ftrunk%2Fdatastore_admin 链接 中 的 样 例 代码 库 。 

关于 datastore admin 及 其 特性 的 更 多 内 容 参考 下 面 的 链接 : 
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e  http;//[code.google.com/appengine/docs/adminconsole/ datastoreadmin.html 
e  http;//googleappengine.blogspot.com/2010/10/new-app-enginesdk-138-includes-new.html 
Go gle app engine —prnail.com | My Account | Help | Sign out 
—— $ Version: 1 « My Applications 
Me Datastore Admin 
Dashboury Entities Ertty statistics last updated Dec 29, 2010 6:52 am UTC 
Quota Details C Entity Kind 4 Entitios Avg. Size/Entity Total Size 
instances = s 1 328 Bytes 328 Bytes 
eu. ”= 1 251 Bytes 251 Bytes 
Cron Jobe c-— c 5 169 Bytes 848 Bytes 
Task Queues Sopy to Another App Delete Entities 
Blacklist Copy to Another App Delete Entitie: 
图 12-23 App Engine Datasotre Admin 界面 
~ /vr ria 
12.12 53 (Python 实现 ) 
完整 的 App Engine 平台 的 范围 和 特性 可 以 写 一 整 本 书 。 这 里 的 目标 是 让 读者 对 App 
Engine 有 个 整体 的 认识 ， 能 够 开始 上 手 ， 仅 此 而 已 。 在 结束 之 前 ， 再 来 个 “ 问 与 答 ” 环 节 ， 
为 读者 提供 一 些 代 码 实 例 ， 这 些 示例 可 以 直接 使 用 ， 无 须 集成 进 前 面 的 博客 应 用 中 。 当 然 ， 
这 些 内 容 对 本 章 的 练习 会 有 帮助 。 
12.121 发 送 电 子 邮 件 
在 第 11 章 的 Twitter/Django 应 用 中 ， 介 绍 了 如 何 使 用 Django 的 电子 邮件 服务 。 在 App 

















Engine 中 发 送 电 子 邮 件 也 很 简单 。 所 要 做 






































的 就 是 导入 mail.send_mail0 函 数 并 使 用 。 


+ 

































































式 很 简单 : mailsend_mail( FROM, TO, SUBJECT, BODY)， 各 部 分 如 下 所 示 。 
FROM 一 个 字符 串 ， 表 示 发 送 者 的 电子 邮件 地 址 (后 面 会 进一步 介绍 ) 

TO 一 个 字符 串 或 可 迭代 的 字符 串 对 象 ， 表 示 接 收 者 

SUBJECT 一 个 字符 串 ， 表 示 “Subject :” 行 的 一 部 分 

BODY 纯 文 本 表示 的 邮件 正文 




















还 可 以 向 send_mail0 传 递 其 他 消息 字段 ， 相 关内 容 可 参考 http://code.google.com/appengine/ 
docs/python/mail/emailmessagefields.html。 

























































































为 了 阻止 发 送 未 经 请 求 的 邮件 ，From: address A PATIR 
。 电子 邮件 地 址 是 应 用 登记 的 管理 

。 当前 登录 的 用 户 。 

。 通过 应 用 验证 的 电子 邮件 接 

下 面 是 一 个 代码 示例 ， 它 含有 导入 








者 g 








于 发 者 )。 
































B. EDDA 


Ach (xxx APP. ID.appspotmail.com 的 
语句 和 一 个 可 能 的 send. mailO Val FA. 























之 一 。 











EX. 
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from google.appengine.api import mail 


mail.send_mail ( 
user and user.email() or 'admin@APP_ID.appspotmail.com', # from 
"corepython@yahoo.com', # to 
‘Erratum for Core Python 3rd edition!' # subject 
"Hi, I found a typo recently. It's...", # body 

) 


mail API 还 提供 了 其 他 函数 ， 如 只 向 应 用 的 管理 者 发 送 邮件 、 验 证 邮件 地 址 等 ， 还 提供 
了 EmailMessage 类 。 还 可 以 向 出 站 邮件 添加 附件 ， 但 附件 类 型 仅 限 于 几 种 常见 的 格式 ， 而 且 不 
是 加 密 的 。 其 中 包括 .doc、.pdf、.rss、.css、.xls、.ppt、.mp3/.mp4/.m4a、.gif、.jpg/.jpeg、.png、 
. tify.tiff、.htm/.html、.txt 等 。 最 新 文 持 的 附件 类 型 参见 http://code.google.com/appengine/docs/ 
python/mail/overview.html#Attachments 。 

最 后 ， 入 站 或 出 站 消息 都 必须 小 于 10MB 在 本 书 编写 时 )。 最 新 的 大 小 限制 可 以 访问 下 
面 的 链接 。 

e —http://code.google.com/appengine/docs/quotas.html#Mail 



















































































e  http;//[code.google.com/appengine/docs/python/mail/overview.html£fQuotas and Limits 
关于 发 送 电子 邮件 的 更 多 信息 参考 以 下 链接 。 
e  http;//[code.google.com/appengine/docs/python/mail/overview.htmEfSending Mail in Python 








e  http://code.google.com/appengine/docs/python/mail/overview.htmlitSending Mail 
e  http://code.google.com/appengine/docs/python/mail/sendingmail.html 


12.12.2 ”接收 电子 邮件 

只 有 发 送 ， 没 有 接收 吗 ? 应 用 当然 可 以 接收 电子 邮件 。 但 比 发 送 稍微 复杂 一 点 。 

设置 

为 了 编写 处 理 入 站 电子 邮件 的 代码 ， 需 要 疝 app.yaml 配置 文件 添加 一 些 内 容 ， 最 重要 的 
是 启用 接收 邮件 的 服务 。 默 认 情 况 下 ， 入 站 电子 邮件 的 代码 是 关闭 的 。 为 了 启用 ， 必 须 在 
app.yaml 的 “inbound_services:” 部 分 启用 它 〈 如 果 没 有 就 添加 一 个 )。 
同样 ， 前 面 提 到 的 正确 的 邮件 发 送 地 址 就 是 这 里 应 用 正确 的 邮件 接收 地 址 。 即 
xxx@APP_ID.appspotmail.com 这 样 。 既 可 以 用 一 个 处 理 程序 处 理 所 有 可 能 的 邮件 地 址 ， 也 可 
以 用 不 同 处 理 程序 处 理 特定 的 邮件 地 址 。 也 就 是 在 app.yaml 文件 中 创建 一 个 或 多 个 额外 处 理 
程序 。 为 了 了 解 如 何 创建 处 理 程序 ， 需 要 知道 所 有 入 站 电子 邮件 是 POST 请 求 ，URL 的 形式 
73/ ah/mail/EMAIL ADDRESS. 
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下 面 是 需要 向 app.yaml 添加 的 相关 内 容 。 


inbound services: 


- mail 


handlers: 


- url: / ah/mail/.* 


Script: handle incoming email.py 


login: admin 























前 两 行 启用 接收 邮件 。“inbound_services”: 部 分 还 用 来 启用 接收 XMPP 消息 (关于 XMPP 的 


















































更 多 内 容 参 考 12.13 节 )、 预 请 求 ， 更 多 服务 可 以 阅读 官方 文档 中 关于 应 用 配置 和 app.yaml 的 内 





容 , 参见 http://code.google.com/appengine/docs/python/config/appconfig.html#Inbound_Services。 





匹配 所 有 





























第 二 部 分 是 “handlers”: 部 分 ， 它 含有 入 站 电子 邮件 的 处 理 程序 。 正 则 表达 式 /_ah/mail.+ 

















电子 邮件 地 址 ， 但 也 可 以 为 不 同 的 电子 邮件 地 址 创建 单独 的 处 理 程序 。 





- url: /_ah/mail/sales@.+ 
Script: handle sales email.py 
login: admin 
- url: /_ah/mail/support@.+ 
Script: handle support email.py 


login: admin 








- url: /_ah/mail/.+ 








Script: handle other email.py 


login: admin 











可 以 
收 到 一 条 
处 理 程 序 

































































使 用 login: admin 指令 来 阻止 恶意 应 用 和 用 户 访 问 电子 邮件 处 理 程序 , 当 App Engine 
电子 邮件 消息 时 ， 其 生成 请 求 并 通过 POST 发 送 到 应 用 中 ， 让 应 用 作为 “admin”* 调 用 


o 




























































































处 理 入 站 电子 邮件 








可 以 









































使 用 默认 方法 处 理 电 子 邮 件 ， 这 需要 编写 处 理 程 序 ， 与 创建 标准 的 Web 处 理 程序 类 
要 创建 mail.InboundEmailMessage 的 实例 。 














from google.appengine.api import mail 


class EmailHandler (webapp.RequestHandler): 
def post(self): 


message - mail.InboundEmailMessage (self.request.body) 
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当然 ， 在 创建 WSGIApplication 时 必须 安装 该 处 理 器 程序 。 








application = webapp.WSGIApplication([ 
('/ ah/email/*.', EmailHandler), 


], debug-True) 


男 一 种 方式 是 使 用 预定 义 的 辅助 类 ，InboundMailHandler， 它 
webapp.mail_handlers 中 。 

















VT google.appengine.ext. 




















from google.appengine.ext.webapp import mail handlers 


class EmailHandler (mail handlers.InboundMailHandler): 


def receive(self, msg): 
































这 里 没有 从 请 求 中 提取 电子 邮件 消息 ， 而 是 自动 处 理 它 ， 所 以 所 要 做 的 仅仅 是 实现 
Teceive() 方 法 ， 来 调用 这 条 消息 。 还 获得 一 个 快捷 的 类 方法 mapping0， 它 自动 生成 二 元 组 ， 
二 元 组 将 电子 邮件 指向 处 理 程序 。 使 用 方法 如 下 。 


application = webapp.WSGIApplication([ 



















































































EmailHandler.mapping(), 


], debug-True) 
有 了 消息 之 后 ， 就 可 以 检查 邮件 的 正文 ， 不 论 它 是 纯 文 本 还 是 HTML (或 两 者 都 有 )〉 都 
可 以 处 理 ， 还 可 以 访问 消息 的 附件 或 其 他 部 分 ,如 发 送 者 、 主 题 等 。 关 于 接收 电子 邮件 的 更 多 
内 容 可 以 访问 以 下 链接 。 

e  http:;//code.google.con/appengine/docs/python/mail/overview.htmlitReceiving Mail in Python 

e —http://code.google.com/appengine/docs/python/mail/overview.html#Receiving Mail 

e  http://code.google.com/appengine/docs/python/mail/receivingmail.html 


















































12.13 使 用 XMPP 发 送 即时 消息 








与 发 送 电子 邮件 类 似 ， 应 用 还 可 以 通过 App Engine 的 XMPP API 发 送 即 时 消息 。XMPP 
的 全 称 是 eXtensible Messaging and Presence Protocol， 但 其 最 初 称 为 Jabber 协议 ， 名 称 来 自 
Jabber 开源 社区 命名 ， 在 20 世纪 90 年 代 末 创建 。 除 了 发 送 之 外 ， 通 过 App Enigne 的 XMPP 
API 还 可 以 接收 即时 消息 、 检 查 是 否 有 用 户 可 以 聊天 或 向 一 个 用 户 发 送 聊 天 邀请 。 但 除非 用 


户 手动 接受 一 个 聊天 邀请 ， 否 则 应 用 不 能 进行 交流 。 
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下 面 是 向 用 户 发 送 聊 天 邀请 的 伪 代 码 ， 假 设 已 经 正确 地 为 USER JID 赋予 了 合法 的 IM 
J> (EÈ Jabber ID). 
























































from google.appengine.api import xmpp 


xmpp.send invite(USER JID) 


self.response.out.write('invite sent') 






































下 面 是 另 一 段 代 码 ， 用 于 在 用 户 接受 聊天 邀请 后 向 用 户 发 送 IM (MESSAGE 字符 串 )， 
将 用 户 的 USER. JID HJ Jabber ID. 
































if xmpp.get presence(USER JID): 
xmpp.send message(USER JID, MESSAGE) 
self.response.out.write('IM sent ') 








第 三 个 XMPP 函数 是 get_presence0， 当 用 户 在 线 时 返回 Ture， 离 开 、 不 在 线 、 未 接受 应 用 
邀请 时 为 False。 关 于 这 个 三 个 函数 ， 以 及 其 他 XMPPAPI 的 更 多 内 容 ， 可 以 参考 下 面 的 链接 。 
e http://code.google.com/appengine/docs/python/xmpp/overview.html 



































e http://code.google.com/appengine/docs/python/xmpp/functions.html 


接收 即时 消息 


接收 IM 的 设置 与 接收 电子 邮件 相同 ， 即 在 app.yaml 文件 的 “inbound_services”: 部 分 添 
加 下 面 的 内 容 。 


inbound services: 























- xmpp message 


同样 与 接收 邮件 的 地 方 相 同 ,来 自 系 统 的 消息 由 App Engine 通过 POST 发 送 到 应 用 。 使 
的 URL 路 径 是 /_ah/xmpp/message/chat。 下 面 是 在 应 用 中 接收 聊天 消息 的 示例 。 


class XMPPHandler (webapp.RequestHandler): 
def post(self): 





HT 























































































































msg obj = xmpp.Message(self.request.POST) 
msg obj.reply("Thanks for your msg: '$s'" $ msg obj.body) 


application = webapp.WSGIApplication ([ 











('/_ah/xmpp/message/chat/', XMPPHandler), 
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], debug-True) 


12.14 ”处 理 图 片 


App Engine 有 Images API， 用 来 对 图 片 进行 简单 的 处 理 ， 如 旋转 、 翻 转 、 改 变 大 小 、 裁 
剪 。 图 片 可 以 由 用 户 通过 POST 发 送 到 应 用 ， 或 从 Datastore 或 Blobstore 中 提取 出 来 。 
下 面 是 一 段 HTML 代码 ， 用 户 可 以 用 来 上 传 图 片 文件 。 


<form action="/pic" method=post enctype="multipart/form-data"> 

















































































































Upload an image: 
<input type=file name=pic> 
<input type=submit> 


</form> 


下 面 的 示例 代码 通过 调用 Image API 的 resizeO0 函 数 为 图 片 创建 一 个 缩 略图 ， 并 把 它 返 


NE WS 
给 浏览 



































H 




















from google.appengine.api import images 


class Thumbnailer (webapp.RequestHandler): 
def post(self): 
thumb - images.resize(self.request.get('pic'), width-100) 
self.response.headers['Content-Type'] = 'image/png' 
self.response.out.write (thumb) 


下 面 是 对 应 的 处 理 程序 项 。 




















application = webapp.WSGIApplication([ 
('/pic', Thumbnailer), 


], debug-True) 


关于 Images API 的 更 多 内 容 可 以 访问 http://code.google.com/appengine/docs/python/ 
images/usingimages.html 


12.15 ”任务 队列 〈 非 定期 任务 ) 


在 App Engine F, 任务 用 来 处 理 额 外 的 工作 。 这 些 工作 可 能 需要 作为 应 用 的 一 部 分 来 完 
成 ， 但 无 需 生成 返回 给 用 户 的 响应 。 这 些 辅助 工作 包括 登录 、 创 建 或 更 新 Datastore 实体 、 发 
送 通 知 等 。 



































































































































App Engine 支持 两 种 类 型 的 个 
这 些 牺 


可 能 并 发 执行 的 任务 。 








EAT fet 








zu. HB 
“HH”. Je ERAT AYER 


12.15.1 创建 任务 


把 任务 可 以 由 面向 月 
况 是 第 一 个 任务 处 理 的 了 
务 创建 的 工作 还 没有 完成 。 















































把 任务 添加 到 任务 队列 ， 


一 个 时 


eu 


He 


a; 


E 试 参数 。 用 户 能 获得 


] Um 





ÉH App Engine 应 











Je 
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4r£ 
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多 内 容 )。 向 默认 队列 添加 任务 大 


HP FOSSE] AE 
[ 作 无 法 及 时 完成 (如 截止 





F 有 外 部 
| 建 ,但 可 以 由 App Engine 或 外 部 应 
Push 队列 ， 然 后 简要 介 


F 务 。 第 一 种 称 为 Push 队列 , 这 是 应 
响 。 第 二 种 类 型 


ELA 
m2 








程序 创建 ， 也 可 以 由 其 他 人 
期 很 近 ， 执 行 时 间 较 短 
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必须 创建 并 快速 和 尽 
1 对象， 这 种 任务 有 点 




















I 是 Pul 
通过 
Pull 队列 。 
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REST API 使 用 或 





E 务 创建 。 后 者 有 一 种 情 











o 队列 有 自己 的 名 称 , 也 可 以 有 不 同 的 执行 速率 、 补 充 或 突 发 速率 、 


A 认 队列， 但 如 果 需 
简单 ， 只 须 在 导入 taskqueue API 后 执行 一 个 简单 























He H 











x 





from google.appengine.api import taskqueue 


taskqueue.add() 








所 有 队列 请 求 都 会 通过 POST 发 送 到 URL ' 
| 的 名 称 发 送 到 默认 的 URL 中 ， 如 /_ah/queue/QUEU 














X URL, RASTER 











他 的 队列 则 必须 指定 队列 名 称 〈 后 面 会 介绍 














的 调用 。 
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Lo 如 果 
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程序 处 至 
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| BCA BN AE 
E NAME. PVA 

















对 默认 队列 ， 它 可 能 为 /_ah/queue/default。 这 意味 着 创建 WSGIApplication 时 应 该 提供 一 个 处 


理 程序 设置 : 


def main(): 











run wsgi app (webapp.WSGIApplication([ 


('/ ah/queue/default', DoSomething), 


1)) 
当然 ， 需 要 添加 处 到 





实际 任务 的 代码 ， 例 如 ， 下 面 是 刚刚 定义 的 处 型 








class DoSomething (webapp.RequestHandler): 
def post (self): 
# do the task here 


logging.info('completed task') 

















在 末尾 添加 ] 














但 这 样 可 以 确认 是 否 完 


AETZU 


























志 项 作为 占 位 符 (当然 ， 如 


个 简单 的 
成 了 任务 。 实 际 上 ， 如 果 函 数 ' 
真 想 记录 某 些 内 容 也 可 以 ， 只 须 确保 前 面 有 import logging 语句 )。 


FH. 
ZR 








SRH, 月 











12.15.2 fc app.yaml 


关于 配置 ， 可 以 不 修改 app.yaml， 直 接 使 月 


日 来 确认 如 


程序 : 








EF 务 真 的 执行 了 。 很 明显 , 六 


























没有 完成 实际 的 任务 代 





























F 不 是 一 定 要 记录 ， 


码 ， 甚 至 可 以 将 


















































HH 




















于 所 有 URL 的 默认 处 理 





程序 。 





516 第 2 部 分 Web 开发 


handlers: 
- url: .* 
script: main.py 
这 个 设置 会 将 普通 和 匹配 / ah/queue/default. 的 应 用 URL 都 定向 到 main.py， 这 意味 着 任 
务 队 列 的 请 求 会 发 送 到 那里 ， 这 可 能 是 期 望 的 行为 。 但 这 种 设置 的 问题 是 任何 人 都 可 以 从 外 
部 访问 /_ah/queue/default URL， 即 使 它们 不 是 作为 任务 创建 的 。 
最 好 的 方法 是 将 这 个 URL (RFE SR, WISIN login: admin 指令 可 以 做 到 这 一 点 
就 像 前 面 配 置 应 用 来 接收 电子 邮件 那样 。 现 在 必须 将 任务 的 URL 从 中 分 离 出 来 ， 如 下 所 示 。 


handlers: 
















































































































































































- url: / ah/queue/default 
Script: main.py 


login: admin 


= urbe * 


script: main.py 


12.15.3 ”其 他 任务 创建 和 配置 选项 


前 面 介绍 使 用 taskqueue.add0 这 种 创建 任务 的 最 简单 方式 。 当 然 ， 还 有 其 他 选项 ， 可 以 
来 为 不 同 任务 队列 〈 非 默认 队列 ) 创建 任务 的 选项 ， 如 指定 时 间 后 执行 、 向 任务 传递 参数 
等 。 下 面 列 出 了 其 中 一 些 选 项 ， 用 户 可 以 选择 其 中 一 个 或 多 个 参数 。 

. taskqueue.add(url=/task’) 
. taskqueue.add(countdown=300) 


























































































































. taskqueue.add(url=/send_email', params-('groupID": 1}) 
. taskqueue.add(url=/send_email?groupID=1', method='GET’) 
. taskqueue.add(queue_name='send-newsletter') 

在 第 一 个 调用 中 ， 传 递 了 特定 的 URL。 这 里 首选 自 定 义 URL， 而 不 是 默认 的 URL. 在 
第 二 个 情形 中 ， 传 递 了 一 个 countdown 参数 ， 用 于 延迟 执行 ， 只 有 在 第 二 个 参数 倒计时 完毕 
时 才 会 执行 该 任务 。 第 三 个 调用 既 传递 自 定 义 URL. 也 传递 任务 处 理 程序 参数 。 第 四 个 示例 与 
第 三 个 相同 , 但 用 户 需 要 GET 请 求 ， 而 不 是 默认 的 POST 请 求 。 最 后 一 个 示例 是 在 定义 自 定 
义 任 务 队 列 ， 而 不 是 默认 队列 。 

这 仅仅 是 taskqueue.add0 文 持 的 众多 参数 中 的 一 小 部 分 。 关 于 其 他 参数 ， 可 以 参考 http: 
//code. google.com/appengine/docs/python/taskqueue/functions.html 。 
到 目前 为 上 上， 前 面 的 例子 使 用 的 是 默认 队列 。 也 可 以 创建 其 他 队列 ， aaa: 免 
SEIN HI RI EUG Ee 10 个 额外 队列 ， 付 费 应 用 可 以 有 最 多 100 个 。 为 了 做 到 这 一 点 ， 需 要 在 
queue.yaml 中 进行 配置 ， 格 式 类 似 下 面 这 样 。 
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queue: 

- name: default 
rate: 1/s 
bucket size: 10 


- name: send-newsletter 
rate: 1/d 


默认 情况 下 是 正常 自行 创建 的 ， 但 如 果 想 为 其 选择 不 同 的 参数 ， 可 以 在 queue.yaml 中 指定 。 就 
如 同 刚刚 那样 ,将 默认 rate BUR 5/3, 将 bucket. size 改 为 5( 这 个 rate 是 任务 执行 的 速率 , 而 bucket_ size 
控制 队列 多 快 能 处 理 随后 的 任务 )。send-newsletter 队列 用 于 每 天 一 次 的 电子 邮件 简讯 。 关 于 队列 所 
有 配置 参数 的 细节 可 以 访问 http://code.google.com/appengine/docs/python /config/queue.html。 

关于 任务 最 后 一 点 要 介绍 的 是 还 有 男 一 种 队列 ， 这 种 队列 让 用 户外 更 灵活 地 决定 在 什么 
时 候 创建 、 消 耗 、 完 成 任务 。 本 节 将 要 介绍 的 这 种 类 似 的 任务 队列 是 Push 队列 ， 这 意味 着 应 
根据 需求 生成 任务 ， 将 工作 按 需 压 入 队列 ! 
前 面 提 到 过 ，App Engine 有 其 他 任务 接口 ， 可 以 在 Pull 队列 中 创建 任务 。App Engine 和 外 
部 应 用 通过 REST 接口 可 以 直接 访问 这 个 队列 。 这 意味 着 工作 可 以 原先 来 自 App Engine 应 用 
在 其 他 地 方 执行 或 处 理 。 因 此 , 在 处 理 的 时 间 线 上 也 更 加 灵活 ,关于 Pull 队列 的 更 多 内 容 可 以 访 
问 http://code.google.com/appengine/docs/python/taskqueue /overviewpull.html 中 的 文档 。 


12.15.4 将 发 送 电子 邮件 作为 任务 


在 前 面 的 例子 中 ， 介 绍 了 如 何 从 应 用 中 发 送 电子 邮件 。 如 果 其 他 人 创建 一 篇 博文 项 时 ， 
只 向 应 用 管理 员 发 送 一 条 消息 ， 则 可 以 将 发 送 这 封 电子 邮件 作为 处 理 那 条 请 求 的 一 部 分 。 但 
如 果 问 数 干 用 户 发 送 电 子 邮件 ， 就 不 是 什么 好 主意 了 。 

发 送 电 子 邮 件 可 以 用 任务 来 完成 。 除 了 发 送 邮 件 之 外 ， 这 个 处 理 程序 也 会 创建 任务 ， 传 
递 参数 〈 如 电子 邮件 地 址 或 用 户 组 ID， 只 有 属于 这 一 组 的 用 户 才 能 收 到 消息 )， 在 任务 在 自 
己 的 时 间 〈 不 是 用 户 的 时 间 ) 内 发 送 邮件 后 将 响应 返回 给 用 户 。 

假设 有 个 Web 模板 ， 让 用 户 配置 电子 邮件 消息 和 收 件 人 组 。 当 用 户 将 表单 提交 到 /submit 
URL 时 ， 由 FromHandler 类 处 理 它 ， 这 一 部 分 可 能 如 下 所 示 。 


class FormHandler (webapp.RequestHandler): 
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def post (self): # should run at most 1/s 
groupID = self.request.get ('group') 
taskqueue.add(params={'groupID': groupID}) 























FormHandlerpost0 方 法 调用 taskqueue.add()， 后 者 用 来 向 默认 队列 添加 任务 ， 传 递 用 于 
接收 订阅 邮件 的 用 户 组 ID. “4 App Engine 执行 任务 时 ， 它 生成 到 /_ah/queue/default 的 POST 
请 求 ， 因 此 需要 为 任务 定义 另 一 个 处 理 程序 类 。 
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由 于 这 里 使 用 默认 队列 ,因此 需要 使 用 前 面 定 义 的 app.yaml, 其 中 含有 额外 的 安全 锁 login: 
admin 。 现 在 主 处 理 程序 (main.py ) 可 以 为 前 面 例子 中 的 表单 指定 处 理 程 序 ， 并 为 
/_ah/queue/default 指定 下 面 即 将 创建 的 SendNewsletter 任务 处 理 程序 : 
























































def main(): 


run wsgi app (webapp.WSGIApplication([ 


('/submit', FormHandler), 


('/ ah/queue/default', SendNewsletter), 


1) 


现在 来 定义 任务 处 理 程序 ， 即 SendNewsletter， 它 接收 来 自 表 单 处 理 程序 中 带 有 用 户 组 
ID 的 入 站 请 求 。 接 着 使 用 一 个 普通 函数 来 发 送 简讯 邮件 。 下 面 是 一 种 创建 SendNewsletter 类 
的 方法 。 
















































































class SendNewsletter (webapp.RequestHandler): 
def post(self): # should run at most 1/s 
groupID = self.request.get ('group') 
send group email (groupID) 























当然 ， 假 设 已 经 创建 了 send_group_email0 函 数 来 处 理 这 个 任务 ， 接 收 用 户 组 ID ， 获 取 
所 有 该 组 的 电子 邮件 地 址 (可 能 从 Datastore 中 提取 出 来 ), 构建 消息 正文 (方法 包括 从 Datastore 
中 获取 、 自 动 生 成 、 从 其 他 服务 器 获取 ， 等 )， 当 然 ， 调 用 实际 的 mail.send_mail()。 下 面 是 
其 代码 。 



















































































from datetime import date 


from google.appengine.api import mail 


def send group email(groupID): 

group emails = . . . # get addresses for groupID members 

msg body = . . . # get custom msg for groupID members 
mail.send mail('noreplyGAPP ID.appspotmail.com', group emails, 


'$s Newsletter' $ date.today().strftime("$B $Y"), msg body) 


为 什么 创建 一 个 单独 的 send_group_emailO 函 数 ?不 能 直接 将 这 些 代 码 放 到 处 理 程序 ， 避 
免 额外 的 函数 调用 吗 ? 这 么 想 很 正常 ， 但 代码 重用 是 一 个 疆 高 的 目标 。 封 装 成 单独 的 函数 可 
以 在 别 的 地 方 重 用 代码 ， 包 括 在 命令 行 工 具 中 、 特 殊 的 管理 员 界 面 /函数 中 ， 甚 至 是 其 他 应 用 
中 。 如 果 将 这 些 代码 放 到 这 里 的 处 理 程序 中 ， 则 必须 粘贴 复制 这 些 代码 ， 最 终 这 些 代 码 也 会 
分 离 到 一 个 单独 的 函数 中 。 所 以 还 是 现在 就 使 用 单独 的 函数 吧 。 









































































































































创建 





建议 读者 尝试 一 下 。 在 使 有 








E 务 来 执行 非 面向 用 户 的 应 月 
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日 工作 不 是 很 























df 








FE 务 之 前 ,读者 可 以 考虑 使 用 





defe 








12.15.5 deferred & 











Bii — 4r? 


是 面向 用 户 的 ， 









































开发 者 不 希望 这 些 工作 拖延 应 





E. App Engine 的 月 























日 户 经 常会 
rred 这 个 方便 的 库 来 简化 了 


到 任务 ， 
[ 作 。 























过 ，App Engine 的 任务 队列 是 一 种 委托 额外 工作 的 好 方式 。 这 类 工作 一 般 不 




















] 对 月 


























H K nA 


。 然 而 尽管 App Engine 让 开发 

























































































































































































者 能 灵活 地 自 定义 创建 和 执行 任务 ， 但 即使 只 是 运行 简单 的 任务 ， 也 要 做 一 些 准备 工作 。 此 
时 就 可 以 用 到 deferred。 

deferred 包 是 一 个 方便 的 工具 ， 用 来 隐藏 许多 设置 和 执行 任务 时 的 准备 工作 。 这 些 工 作 
包括 : 必须 调整 表单 处 理 程序 来 创建 任务 ， 必 须 提 取 并 提供 合适 的 任务 参数 和 执行 规则 ， 必 
须 创 建 并 配置 独立 的 任务 处 理 程序 等 。 为 什么 不 能 将 这 些 准 备 工 作 委 托 给 一 个 任务 呢 ? 这 就 
是 deferred 工具 的 作用 。 

只 须 使 用 一 个 函数 deferred.defer0， 将 使 用 这 个 函数 创建 一 个 延迟 任务 。 该 函数 使 用 起 
来 如 同日 志 函 数 一 样 简单 ， 如 下 所 示 。 














from googl 


deferred.defer(logging.info, 

















这 个 函数 只 使 
认 队 列 ! 














默认 特性 。 也 无 须 在 应 用 























] deferred 库 配 置 应 
运行 ， 正 如 前 面 提 到 的 ， 无 须 

























































































小 的 例子 中 可 以 看 出 ， 只 须 向 deferred.defer0 传 递 一 个 Python 可 调 
数 或 天 键 字 参数 参数 。 
另外 ,还 可 以 传递 任务 参数 (前 一 节 介 绍 过 ), 但 需要 对 
述 的 回调 弄 混 。 因 此 需要 在 任务 参数 前 面 加 上 下 划 线 , 防止 将 
对 于 上 面 的 调用 ， 需 要 延迟 $ 秒 ， 可 以 使 用 下 面 这 样 的 方式 。 
deferred.defer (logging.info, 
"Called a delayed deferred task", _countdown=5) 








KIERA 


le.appengine.ext import deferred 


"Called a deferred task 














j， 没 有 其 他 内 容 。 延 迟 的 任务 〈 默 认 情况 下 ) 在 和 


") 





ER 














BAE? 
E 务 指定 处 理 程 
































竺 别 的 事 来 进行 设置 ， 除 非 想 改变 默认 队列 的 





























EH, deferred 库 都 自己 实现 了 。 从 前 面 短 


























对 象 ， 以 及 任何 其 他 参 






























































进行 预 处 理 ， 防 止 该 参数 与 延 
其 作为 执行 程序 的 参数 。 例如， 


可 以 轻松 地 将 前 面 发 送 电 子 邮 件 的 示例 转 成 下 面 等 价 的 形式 。 


class SendNewsletter (webapp.RequestHandler): 
def post(self): 


groupID = self.request.get ('group') 


deferred.defer(send group email, groupID) 





&E3R [E55 uf LAY) 
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的 文档 ， 下 面 是 可 以 








函数 、 方 法 和 任何 其 他 可 调 月 
JMESEXSTEA B WT T 
































d FEDES 


的 或 有 __call_ 定义 的 对 象 。 根据 代码 ! 
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1. 模块 项 层 定义 的 函数 。 
2. 模块 顶层 定义 的 类 。 
a. KM cal 的 类 实例 。 
b. 这 些 类 的 实例 方法 。 
c. 这些 类 的 类 方法 。 
3. 内 置 函 数 。 
4. 内 置 方法 。 
但 下 面 的 这 些 是 不 允许 的 (同样 在 代码 中 的 注释 
。 KER BAe 
。 HERA AURBARN MR. 
e Lambda 函数 。 
。 静态 方法 。 
另外 , 可 调用 对 象 的 所 有 参数 都 必须 是 “pickleable” 这 意味 着 只 有 基本 的 Python 对 象 (如 
常量 、 数 字 、 字 符 串 、 序 列 和 哈 希 类 型 ) 才 可 以 。 完 整 的 列表 可 以 参考 Python 官方 文档 ， 链 
接 为 http://docs.python.org/release/2.5.4/lib/node317.html (Python 2.5) 或 http://docs.python.org/ 
library/pickle.html#what-can-be-pickled-and-unpickled 〔 最 新 版 )。 
例子 中 还 有 一 个 限制 是 send_group_email0 需 要 在 不 同 的 模块 中 ， 然 后 导入 主 处 理 程序 
中 。 这 样 做 的 原因 是 此 时 “推迟 ”了 任务 , 且 任 务 是 “序列 化 的, 它 记 录 了 代码 属于 _ main —- 
模块 ， 但 当 deferred 包 在 接收 由 任务 创建 的 POST 请 求 后 ， 执 行 可 调用 对 象 时 ，deferred 模块 
就 是 正在 执行 的 内 容 《〈 因 此 其 中 有 _ main 属性， 这 意味 着 此 时 找 不 到 可 调用 对 象 的 代码 )。 
如 果 将 函数 foo0 推 迟 ， 会 收 到 下 面 这 样 的 错误 。 


Traceback (most recent call last): 















































说 明了 )。 




























































































































































































File "/usr/local/google appengine/google/appengine/ext/deferred/ 
deferred.py", line 258, in post 
run (self.request.body) 
File "/usr/local/google_appengine/google/appengine/ext/deferred/ 
deferred.py", line 122, in run 
raise PermanentTaskFailure (e) 
PermanentTaskFailure: 'module' object has no attribute 'foo' 


但 通过 放 在 main.py 的 外 面 (或 其 他 含有 主 处 理 程序 的 Python 模块 中 )， 能 避免 这 种 泥 
乱 并 让 代码 正确 地 导入 和 执行 。 如 果 对 _main ”还 不 太 了 解 ,可 以 阅读 本 书 关 于 模块 的 章节 。 
更 多 deferred 的 关于 内 容 ， 可 以 查看 http://code.google.com/appengine /articles/deferred.html 中 
的 这 篇 原始 资料 的 。 


12.16 使 用 Appstats 进行 分 析 


在 App Engine 中 能 够 分 析 应 用 的 行为 优势 是 很 重要 的 。 可 以 使 用 Appstats 进行 分 析 ， 这 
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是 SDK 中 的 一 个 工具 ， 用 来 优化 应 用 的 性 能 。Appstats 不 是 普通 的 “代码 验证 工具 ” 这 款 
工具 跟踪 应 用 中 不 同 的 API 调用 ， 衡 量 通过 远程 过 程 调用 〈RPC) 完成 后 端 服 务 所 耗费 的 时 
间 ， 并 提供 一 个 基于 Web 的 接口 ， 用 于 观察 应 用 的 行为 。 

配置 Appstats 来 记录 事件 非常 简单 。 只 须 在 应 用 的 根 目录 中 创建 appengine_config.py X 
件 〈 如 果 有 就 直接 打开 )， 添 加 下 面 的 函数 。 


def webapp add wsgi middleware (app): 






















































































































































































from google.appengine.ext.appstats import recording 
app = recording.appstats wsgi middleware (app) 
return app 


这 里 还 可 以 使 用 其 他 功能 ,文档 中 对 这 些 功 能 做 了 介绍 。 当 添加 完 这 些 代 码 后 ，Appstats 
会 从 根据 应 用 的 活动 记录 事件 。 记 录 器 非常 轻 量 ， 所 以 它 对 性 能 没有 什么 影响 。 

最 后 一 步 是 设置 管理 接口 ， 这 样 可 以 访问 Appstats 的 记录 。 下 面 三 种 方式 中 的 任何 一 种 
都 可 以 完成 该 任务 。 

1. 在 app.yaml 中 添加 标准 的 处 理 程序 。 

2. 添加 自 定义 Admin Console 页 面 。 

3. 作为 内 置 界 面 启用 。 


12.16.1 在 app.yaml 中 添加 标准 处 理 程序 
为 了 在 app.yaml( 自 然 在 “handler: 部 分 ”) 中 添加 标准 处 理 器 程序 ， 使 用 下 面 的 代码 。 


= url: /stats.* 






























































































































































script: $PYTHON LIB/google/appengine/ext/appstats/ui.py 


12.16.2 ”添加 自 定义 Admin Console 页 面 


如 果 想 将 Appstats UI 作为 自 定 义 Admin Console 页 面 ,可 以 在 app.yaml 中 的 admin-console: 
部 分 进行 如 下 修改 。 


admin-console: 





























pages: 
- name: Appstats UI 
url: /stats 


12.16.3 *FANSABRAAD 
可 以 将 作为 内 置 界 面 启用 Appstats UL. 即 像 下 面 这 样 修改 app.yaml 中 的 “builtins”: 部 分 。 


builtins: 















































- appstats: on 
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这 样 将 UI 配置 到 默认 的 /_ah/stats 路 径 下 。 
可 从 下 面 的 链接 中 了 解 Appstats 提供 的 其 他 内 容 。 
e http://code.google.com/appengine/docs/python/tools/appstats.html 




















e http://googleappengine.blogspot.com/2010/03/easy-performance-profiling-with.html 
e — http://www. youtube.com/watch?v=bvp7CuBWVgA 


12.17 URLfetch 服务 

















当 使 用 App Engine 工作 时 需要 考虑 的 一 个 限制 是 ， 不 能 创建 网 络 套 接 字 。 这 会 让 大 多 数 
点 用 变 得 毫 无 用 处 , 但 SDK 提供 了 更 高 层次 的 功能 作为 代理 。 创建 并 使 用 套 接 字 能 够 与 网 络 
上 的 其 他 应 用 交互 。 为 此 App Engine 提供 了 URLfetch 服务 ， 通 过 这 个 服务 ， 应 用 可 以 向 其 
他 在 线 服 务 器 生成 HTTP 请 求 (GET、POST、HEAD、PUT、DELETE)。 下 面 是 一 个 简短 
的 示例 。 


from google.appengine.api import urlfetch 





































































































































































































res = urlfetch.fetch('http://google.com') 
if res.status code -- 200: 
self.response.out.write ( 
'First 100 bytes of google.com:<p>%s</p>' % 


res.content[:100]) 




















除了 App Engine 的 urlfetch 模块 之 外 ， 还 可 以 使 用 标准 的 urllib、urllib2 库 ， 以 及 httplib 
模块 , 这 些 模块 自身 修改 过 , 使 用 App Engine 的 URLfetch 服务 进行 交互 (自然 运行 在 Google 
的 可 扩展 架构 上 )。 

这 里 需要 注意 一 些 警 告 ， 如 通过 HTTPS 和 请 求 头 与 服务 器 通信 ， 不 能 修改 或 设置 。 关 
于 这 些 限制 ， 以 及 如 何 使 用 URLfetch 服务 的 细节 ， 可 以 查看 文档 ,链接 是 http://code.google. 
com/appengine/docs/python/urlfetch/overview.html . 

最 后 ， 由 于 有 些 负载 是 高 延迟 的 ,因此 同样 可 以 用 异步 的 URL fetch 服务 。 还 可 以 查询 是 
否 有 请 求 完成 或 提供 回调 。 关 于 异步 URLfetch 的 更 多 内 容 可 以 访问 http://code.google.com/ 
appengine/docs/python/urlfetch/asynchronousrequests.html。 








































































































































































































12.18 [5X (A Python 实现 ) 


























这 里 是 另 一 个 “ 问 与 答 ” 环 节 ， 本 贡 将 介绍 其 他 配置 过 的 特性 。 这 一 节 没有 源 代码 。 
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12.18.1 Cron 服务 〈 计 划 任 务 作 业 ) 

cronjob 是 一 个 任务 ， 原 先 用 在 POSIX 系统 上 ， 用 来 按 计 划 执 行 。App Engine 为 用 户 提 
供 一 种 cron 类 型 的 服务 。 这 种 类 似 的 服务 实际 上 不 使 用 Python 代码 ， 只 是 期 望 相应 的 处 理 
程序 在 合适 的 时 间 执 行 

为 了 使 用 cron 服务 ， 需 要 创建 corn.yaml 文件 ， 其 中 含有 下 面 的 内 容 。 

en /task/roll_logs 
schedule: every day 
- url: /task/weekly report 
Schedule: every friday 17:00 

还 需要 正确 地 和 定 “description:” 利 “timezone:” 字 段 。 调 度 格式 非常 灵活 。 更 多 App Engine 
中 cro 任务 的 关于 内 容 可 以 参考 其 文档 ， 链 接 为 http//code.google.com/appengine 
/docs/python/config/cron.html . 
12.18.2” 预 热 请 

预 热 请 求 用 来 降低 延迟 ， 当 需要 新 的 实例 用 来 服务 更 多 用 户 时 ， 可 以 提高 用 户 对 应 用 的 
体验 。 假 设 用 一 个 实例 来 完成 应 用 的 某 个 任务 。 但 突然 来 了 很 多 服务 会 导致 堵塞 。 当 运行 的 
实例 无 法 支持 这 个 负载 时 ， 必 须 上 线 新 的 实例 来 服务 所 有 请 求 。 

如 果 没 有 预 热 请 求 ， 第 一 个 m 会 创建 新 的 实例 ， 与 已 有 一 个 正在 运行 的 
实例 相 比 ， 此 时 必须 要 等 待 稍微 长 一 点 。 额 外 的 延迟 是 因为 必须 等 待 载 入 新 的 实例 后 才能 处 
里 用 户 的 请 求 。 如 果 可 以 “ 预 热 ” E 即 在 遇 到 阻塞 之 前 预 载 入 到 应 用 中 ， 用 户 就 不 









































会 感到 延迟 。 这 就 是 预 热 请 求 











与 其 他 App Engine 特性 


的 工作 。 
























































相似 ， 预 热 请 求 默 认 情 况 下 不 开 














E 何 数据 。 
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j 户 响应 之 前 


app.yaml 的 “inbound_services”: 部 分 添加 下 面 一 行 。 
inbound services: 
- warmup 
另外 ， 
建 一 个 处 理 程序 ， 可 以 在 应 用 中 预 载 入 各 
有 运行 各 
如 果 思 考 一 下 ， 原 因 
须 先 完成 载 入 请 求 。 因 为 不 想 应 用 对 第 一 
求 这 方面 花费 时 间 。 























以 预 热 新 的 实例 。 

















预 热 请 求 只 在 服务 器 已 经 处 理应 用 的 阻塞 时 才 有 




















启 。 为 了 开启 预 热 请 






























































1， 除 了 载 入 请 求 之 外 ， 
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求 ， 向 





当 新 实例 上 线 时 ，App Engine 会 向 /_ah/warmup 发 起 一 个 GET 请求。 如果 为 其 创 
只 须 记 住 ， 如 果 应 用 没有 遇 到 阻塞 ， 
F 何 实例 ， 第 一 个 请 求 依然 会 触发 载 入 请 求 〈 即 使 已 经 启用 了 预 热 )。 

很 简单 : 预 热 请 求 并 不 是 万 能 


则 没 


J， 实际 上 ， 还 会 增加 延迟 ， 因为 必 
还 在 预 热 请 
J, JERY App Engine 可 
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配置 这 个 特性 时 同样 不 需要 任何 Python 代码 。 关 于 预 热 请 求 的 更 多 内 容 参考 下 面 的 这 些 
链接 : 


e http://code.google.com/appengine/docs/adminconsole/instances.html#Warming_Requests 

















e http://code.google.com/appengine/docs/python/config/appconfig.html#Inbound_Services 
12.18.3 DoS 保护 


App Engine 提供 了 防止 应 用 受到 系统 的 拒绝 服务 (Denail-of-Service, DoS) 攻击 的 简单 
方式 。 这 项 功能 需要 创建 dosyam 文件 ， 其 中 含有 “blacklist”: 部 分 ， 如 下 所 示 。 
























































blacklist: 
- subnet: 89.212.115.11 
description: block DoS offender 
- subnet: 72.14.194.1/15 
description: block offending subnet 
可 以 将 独立 的 中 或 IPv4 f IPv6 的 子 网 加 入 黑 名 单 。 此 时 上 传 dos.yaml 文件 后 ,来 自 特 
定 IP 或 子 网 的 请 求 会 过 滤 掉 ， 无 法 到 达 应 用 代码 。 应 用 不 会 为 这 些 黑 名 单 中 的 IP 或 网 络 : 
发 送 的 请 求 消耗 资源 。 
关于 Dos 保护 的 官方 文档 参见 http://code.google.com/appengine/docs/python/ config/dos.html。 


12.19 厂商 锁定 


最 后 一 个 需要 讨论 的 问题 是 厂商 锁定 。 锁定 通 常 指 系 统 在 内 部 就 很 难 或 者 无 法 迁移 数据 / 
业务 逻辑 到 类 似 或 竞争 的 系统 上 。 在 App Engine 简短 的 生命 周期 ， 一 向 认为 其 “强迫 用 户 ” 
使 用 Google 的 API 访问 App Engine， 很 难 将 应 用 移植 到 其 他 平台 中 。 

Google 强烈 建议 用 户 使 用 它们 的 API， 来 充分 利用 系统 的 优势 ， 用 户 必 须 理解 这 是 个 取 
舍 。 看 上 去 为 了 利用 Google 的 可 扩展 架构 《由 这 个 公司 独立 管理 )， 而 必须 使 用 Google 的 
API 编写 代码 比较 公平 。 再 一 次 提醒 ， 不 能 不 劳 而 获 ， 对 吗 ? 毕竟 构建 这 样 的 扩展 能 力 是 非 
常 困 难 且 开销 很 大 的 工作 。Google 也 在 尽量 尝试 取消 锁定 , 同时 让 用 户 仍然 能 使 用 App Engine 
的 优点 。 
例如 ， 尽 管 App Engine 有 webapp (或 webapp2) 框架 ,但 依然 能 使 用 其 他 开源 有 旦 兼容 
App Engine 的 框架 。 包 括 Django、web2py、Tipfy、Flask、Bottle。 对 于 Datastore API， 如 果 
使 用 Django-non-rel 系统 和 djangoappengenine， 可 以 完全 忽略 掉 这 个 。 这 些 库 允许 在 App 
Engine 上 直接 运行 纯 Django MH, 所 以 可 以 自由 地 在 App Engine 和 任何 支持 Django 的 传统 
系统 之 间 迁 移 。 另 外 ， 还 不 仅 限 于 Python, Java 方面 也 同样 如 此 。App Engien 团队 尝试 了 和 
多 努力 让 其 API 尽量 兼容 Java Specificaiton Request (JST) 标准 。 如 果 读 者 了 解 如 何 编写 Java 
servlet， 就 很 容易 转 到 App Engine 中 。 
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最 后 ， 还 有 两 个 开源 后 端 系统 声称 兼容 App Engine 客户 端 ， 分 别 是 AppScale 和 


TyphoonAE。 后 者 以 更 传统 的 开源 项 目的 方式 维护 ， 前 者 在 加 利 福 尼 亚 大 学 圣 芭 芭 拉 校区 活 





















































跃 地 开发 着 。 关 于 这 两 个 项 目的 更 多 内 容 可 以 访问 http://appscale.cs.ucsb.edu 和 http://code.google. 


com/p/typhoonae。 如 果 想 对 应 用 有 全 方位 的 掌控 ， 不 想 运 行 在 Google 的 数据 
a 


















































心 ， 可 以 用 这 














两 个 系统 之 一 来 组 建 平台 。 


12.20 


App Engine 可 以 写 一 本 书 了 (实际 上 已 经 有 人 写 了 )， 但 是 ， 这 一 章 不 能 鲁 











资源 








RES), fH 






































如 果 读者 想 深入 研究 ， 下 面 的 一 些 资源 和 特性 可 能 有 所 帮助 。 























Blogstore， 让 用 户 处 理 对 Datastore 来 说 太 大 的 数据 对 象 (blob)〈 如 媒体 文件 ) 
http://code.google.com/appengine/docs/python/blobstore/overview.html 

功能 
http://www.slideshare.net/jasonacooper/strategies-for-maintaining-app-engine-availability 
-during-read-only-periods 
http://code.google.com/appengine/docs/python/howto/maintenance.html 

Channel: 让 应 用 直接 向 浏览 器 发 送 数据 的 服务 ,， 即 Reverse Ajax. browser push. Comet. 
http://googleappengine.blogspot.com/2010/12/happy-holidays-from-app-engine-team-140 
.html 

http://blog.myblive.com/2010/12/multiuser-chatroom-with-app-engine.html 





http://code.google.com/p/channel-tac-toe/ 
http://arstechnica.com/web/news/2010/12/app-engine-gets-streaming-api-and-longer-back 


ground-tasks.ars 





高 复制 Datastore o 
http://googleappengine.blogspot.com/2011/01/announcing-high-replication-datastore.html 
http://code.google.com/appengine/docs/python/datastore/hr/overview.html 

Mapper: MapReduce 的 第 一 个 步 又， 让 用 户 遍 历 用 户 持久 数据 。 
http://googleappengine.blogspot.com/2010/07/introducing-mapper-api.html 











http://code.google.com/p/appengine-mapreduce/ 
Matcher: 高 可 扩展 实时 匹配 架构 : 注册 查询 来 匹配 对 象 流 。 
http://www.onebigfluke.com/2010/10/magical-api-from-future-app-engines.html 











http://groups. google.com/group/google-appengine/browse_thread/thread/5462e14c3 1f44bef 
http://code. google.com/p/google-app-engine-samples/wiki/A ppEngineMatcherService 
命名 空间 : 通过 划分 Google App Engine 数据 ， 创 建 多 租户 的 应 用 程序 
http://googleappengine.blogspot.com/2010/08/multi-tenancy-support-high-performance_17.html 


























526 第 2 部 分 Web) 





开发 


http://code.google.com/appengine/docs/python/multitenancy/overview.html 


http://code.google.com/appengine/docs/python/multitenancy/multitenancy.html 














































































































。 OAuth: 联合 验证 服务 ， 无 须 交 换 凭 证 信息 就 可 让 第 三 方 访问 应 用 和 数据 。 
http://code.google.com/appengine/docs/python/oauth/overview.html 
http://oauth.net 

。 流水 线 : 管理 多 个 长 时 间 运 行 的 任务 /工作 流 ， 整 理 其 结果 (参见 Fantasm, = 77 
编写 的 男 一 个 更 简单 的 工作 流 管理 器 )。 











http://code.google.com/p/appengine-pipeline/wiki/GettingStarted 


http://code.google.com/p/appengine-pipeline/ 
http://news.ycombinator.com/item?id=2013133 
http://googleappengine.blogspot.com/2011/03/Amplementing-workflows-on-app-engine.html 


表 12-3 列 出 本 章 出 现 的 六 


F 多 开发 








EX H] Web 地 址 。 


表 12-3 与 Google App Engine 共同 开发 的 框架 






























































项 目 URL 

Google App Engine http://code.google.com/appengine 

Bigtable http://labs.google.com/papers/bigtable.html 

Megastore http://research. google.com/pubs/pub3697 1 .html 

webapp http://code.google.com/appengine/docs/python/gettingstarted/usi 
ngwebapp.html 
http://code.google.com/appengine/docs/python/tools/ 

webapp2 http://code.google.com/appengine/docs/python/gettingstartedpyth 
on27/usingwebapp.html 
http://code.google.com/appengine/docs/python/tools/ webapp 
http://webapp-improved.appspot.com/ 

Django http://djangoproject.com 

Django-nonrel http://www.allbuttonspressed.com/projects/django-nonrel 

djangoappengine http://www.allbuttonspressed.com/projects/ djangoappengine 

Bottle http://bottlepy.org 

Flask http://flask.pocoo.org/ 

tipfy http://tipfy.org 

web2py http://web2py.com 

AppScale http://appscale.cs.ucsb.edu 

TyphoonAE http://code.google.com/p/typhoonae 

12.21 总 结 


从 本 章 和 第 11 章 的 这 么 多 内 容 可 知 , Django 和 Google App Engine 是 
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Python #1 
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两 个 最 强大 和 灵活 的 Web 框架 。 而 其 他 框架 CTurboGears. Pyramid. web2py. web.py 等 , 
也 很 强大 ， 这 些 框架 都 有 很 好 的 生态 圈 ， 增 加 Python 用 户 编写 Web 应 用 的 选择 。 更 重要 的 








是 ， 所 有 Python Web 框架 背后 都 有 专注 的 开发 者 和 忠诚 的 追随 者 。 
根据 对 任务 的 契合 程度 全 能 的 程序 员 ， 甚 至 会 过 一 段 时 间 就 换 一 个 框架 。 社 区 能 拥有 







































































x 
么 多 大 而 且 著名 的 框架 非常 不 错 。 尽 管 本 章 开 头 的 引用 有 点 口是心非 ， 但 背后 依然 有 一 些 道 
理 ， 如 果 每 个 人 都 需要 自己 编写 Web 框架 ， 世 界 会 变 得 很 糟 。 








































































































最 后 一 点 提示 ， 本 章 的 实例 都 不 支持 Python 3， 因 为 这 些 框架 目前 都 不 支持 Python 3. 
"ix Python 3 时 ， 会 在 本 书 的 配套 网 站 上 放出 相关 资源 ， 本 书 的 新 版 〈 第 4 版 ) 到 时 候 也 


























会 涵盖 Python 3 版 本 。 
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练习 


GoogleApp Engine 


12-1 
12-2 
12-3 
12-4 


12-5 
12-6 








X. IEĦ Google App Engine, Python 需要 做 哪些 事情 ? 

Xo Google App Engine 与 其 他 开发 环境 有 哪些 区 别 ? 

配置 。Django 和 App Engine 的 配置 文件 有 哪些 区 别 ? 

配置 。 介绍 Django 应 用 执行 “URL 到 处 理 程序 ”映射 的 地 方 。 同 样 介绍 App Engine 
旋 用 完成 这 个 任务 的 地 方 。 
配置 。 如 何 让 Django 应 用 无 须 更 改 就 能 运行 在 Google App Engine E? 

配置 。 对 于 这 个 练习 ， 访 问 http://code.google.com/appengine， 接 着 下 载 并 安装 针 
对 读者 系统 的 最 新 的 Google App Engine SDK. 

a) 如 果 是 Windows 或 Max 系统 ， 使 用 Launcher 应 用 创建 名 为 “helloworld” 的 应 
] 。 在 其 他 系统 上 ， 创 建 含有 下 面 内 容 的 文件 。 


i. 第 一 个 文件 为 : app .yaml 
application: helloworld 
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version: 1 
runtime: python 


api_version: 1 


handlers: 
= Ur Le: yT 
script: main.py 
ii. 第 二 个 文件 为 : main .py 





from google.appengine.ext import webapp 
from google.appengine.ext.webapp.util import run wsgi app 
class MainHandler (webapp.RequestHandler): 
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def get (self): 
self.response.out.write('Hello world!') 


application = webapp.WSGIApplication([ 
('/', MainHandler), 


], debug-True) 


def main(): 


run wsgi app(application) 


if name == ' main 





main() 



































b) 通 过 Launcher IPKT “dev_appserver.py DIR” 来 启用 应 用 , 其 中 DIR 是 app.yaml 
和 main.py 所 在 的 目录 。 ipi http://localhost:8080 或 自己 指定 的 端口 号 ) 来 
角 认 代码 正常 工作 ， 浏 览 器 中 显示 了 “Hello world!”。 将 显示 内 容 改 为 其 他 内 容 。 
12-7 教程。 完成 位 于 http://code.google.com/appengine/docs/python/gettingstarted 的 
“Getting Started” 教 程 。 注 意 ， 不 要 直接 复制 网 页 上 面 的 代码 。 同 时 希望 读者 能 对 
教程 中 的 应 用 进行 修改 ， 添 加 一 些 其 中 没有 的 功能 
12-8 沟通 。 电 子 邮件 是 应 用 的 关键 特性 。 在 上 一 章 的 练习 中 ， 添 加 了 当 创 建新 博客 项 
时 发 送 邮件 的 功能 。 在 App Engine 的 博客 应 用 中 添加 相同 的 功能 
12-9 图片。 允许 用 户 为 每 篇 博客 提交 图 片 ， 并 恰当 美观 地 显示 博文 。 
12-10 ”游标 和 分 页 。 类 似 Django 博客 应 用 ， 显 示 前 10 篇 博文 还 可 以 ， 但 让 用 户 能 翻 页 
到 前 面 的 博文 就 更 好 了 。 使 用 游标 并 向 应 用 添加 分 页 。 
12-11 沟通 。 人 允许 用 户 在 应 用 中 使 用 TM 沟通 。 创 建 菜 单 命令 来 发 布 博客 项 ， 获 取 最 新 
的 博文 ， 以 及 其 他 很 “ 酷 ” 的 特性 。 


使 用 Django 或 App Engine 开发 


12-12 ”用户 云 数据 管理 系统 。 构 建 天 气 监控 系统 。 人 允许 系统 中 多 个 用 户 使 用 任何 验证 系 
统 。 每 个 用 户 应 该 有 一 组 位 置信 息 〈 邮 编 、 机 场 编码 、 城 市 等 ;。 用 户 应 该 位 于 
一 个 位 置 网 格 中 ， 其 中 含有 当前 的 天 气 以 及 3 一 5 天 的 天 气 预报 。 网 上 有 多 个 在 
线 天 气 API 可 以 使 用 。 

12-13 ”金融 管理 系统 。 创 建 股票 /股本 组 合 管理 系统 。 处 理 内 容 包 括 普 通 股票 、 合 股 投 
资 、 交 易 所 交易 基金 、 美 国 存 托 赁 证、 证券 交易 指数 或 其 他 可 通过 包含 的 股票 代 
号 搜索 的 数据 。 如 果 读 者 不 在 美国 ， 使 用 所 在 国 的 交易 工具 。 

12-14 运动 统计 应 用 。 假 设 你 是 一 个 狂热 的 全 球 保 龄 球 运动 参与 者 ， 则 可 以 用 一 个 应 用 

程序 来 管理 得 分 、 计 算 平 均值 等 ， 但 是 可 以 做 得 更 多 。 预 测 得 分 、 每 天 的 平均 得 

分 等 ,允许 用 户 输入 分 数 和 未 击 倒 的 数量 。 这样 可 以 验证 是 否 真 的 打 了 一 场 很 好 
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的 游戏 ， 或 是 否 一 晚上 都 很 幸运 。 还 包括 一 个 复 选 框 ， 可 以 选择 表示 是 否认 同一 
局 游戏 ， 并 可 以 链接 到 特定 游戏 的 视频 剪辑 。 不 在 保龄球 馆 也 能 分 析 运 动 。 包 陡 
一 个 网 络 服务 器 ， 在 外 面 时 也 可 以 通过 因特网 或 在 手机 上 访问 这 些 数据 。 
12-15 课程 逻辑 和 社会 管理 系统 。 实 现 一 个 中 学 或 大 学 课程 管理 系统 。 它 可 以 支持 用 户 
登录 ， 包 含 实 时 的 聊天 室 ， 有 离线 带 外 通信 (OB) 的 论坛 ， 还 有 专门 提交 作业 
和 获取 成 绩 的 地 方 。 同 样 对 于 老师 来 说 ， 可 以 增加 和 批改 作业 , 与 学 生 一 起 参与 
聊天 和 论坛 ， 给 学 生发 布 课程 通知 、 静 态 文 件 ， 发 送 消息 。 选 择 Django 或 
GoogleAppEngine 来 实现 你 的 方案 ， 或 者 有 更 好 的 选择 ， 使 用 Django-non-rel 创 
建 一 个 Django 应 用 程序 ， 在 Google App Engine 或 传统 的 主机 环境 下 运行 。 
12-16 菜谱 管理 器 。 开 发 一 个 应 用 程序 来 管理 一 个 虚拟 的 毫 饪 食谱 集合 。 这 有 点 不 同 于 管理 
MP3 或 本 地 文件 夹 中 收藏 的 其 他 音乐 。 这 些 食谱 只 存在 网 上 ， 当 用 户 输入 荣 谱 URL 
时 , 应 用 程序 应 当 人 允许 用 户 将 URL 放 在 多 个 分 类 下 (但 是 实际 URL 仅仅 只 保存 了 一 
次 )。 同 时 ， 当 菜谱 链接 失效 时 ， 通 过 电子 邮件 、IM/XMPP、SMS “如果 能 找到 合适 
的 电子 邮件 到 SMS 网 关 ， 参 见 http://en.wikipedia.org/wiki/List_of_SMS_gateways) 问 
用 户 发 送 通 知 。 在 列 出 食谱 时 创建 一 个 微型 候 虫 , 显示 某 个 菜谱 页 面 上 的 找到 缩 略图 
(如 果 有 )， 像 菜谱 URL 一 样 〈 如 果 是 可 用 )。 用 户 可 以 通过 类 别 / 荣 系 进行 浏览 。 
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13 


#138 Web 服务 


我 没有 对 Twitter 上 妆 。 我 只 在 有 空 的 时 候 刷 推 特 ， 比 如 ， 吃 饭 的 时 候 、 休 息 的 时 候 、 这 
个 时 候 、 那 个 时 候 、 所 有 时 候 。 





一 一 佚名 ， 早 于 2010 年 5 月 


本 章 内 容 : 

。 简介 ; 

。 Yahool! 金 融 股 票 报价 服务 器 ; 
e Twitter 的 微 博 。 
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本 章 将 简要 介绍 如 何 使 用 当今 可 接触 到 的 一 些 Web 服务 , 如 较 老 的 Yahool! 金 融 股 票 报价 
服务 器 以 及 较 新 的 Twitter。 



































13.1 简介 











网 络 上 有 许多 Web 服务 和 应 用 ， 分 别提 供 不 同 的 功能 。 大 部 分 较 大 的 公司 ， 如 Yahoo!. 
Google. Twitter 和 Amazon， 都 会 为 这 些 服 务 提供 应 用 编程 接口 《API)。 过 去 ，API 仅仅 用 
来 在 使 用 服务 时 访问 数据 。 但 今日 的 API 有 所 不 同 ， 不 但 有 更 加 丰富 的 功能 ， 而 且 通 过 这 些 
API 可 以 将 服务 整合 到 个 人 网 站 和 页 面 中 ， 这 种 方式 通常 称 为 “mash-up”。 

这 是 个 非常 有 趣 的 领域 ， 后 面 会 进一步 探讨 其 他 一 些 技术 CREST. XML. JSON, RSS, 
Atom 等 )。 现 在 先 回头 看 看 一 个 已 经 存在 很 久 但 仍然 很 有 用 的 API， 即 Yahoo! 提 供 的 股票 报 
价 服务 器 ， 参 见 http://finance.yahoo.com. 


13.2 Yahoo! 金融 股票 报价 服务 


如 果 访 问 Yahoo! Finance 网 站 ， 选 择 任意 一 只 股票 的 报价 ， 会 在 页 面 下 方 ， 报 价 数 据 下 
面 的 “Toolbox” 中 发 现 一 个 标 为 “Download Data” 的 URL 链接 。 用 户 通 过 这 个 链接 下 载 .csv 
文件 ， 以 导 入 Microsoft Excel 或 Intuit Quicken 中 。 如 果 访 问 的 是 GOOG 的 股票 ， 则 URL 类 
似 下 面 这 样 。 

http://quote.yahoo.com/d/quotes.csv?s=GOOG&f=sl1d1tlclohgv&e=.csv 

如 果 浏 览 器 的 MIME 设置 是 正确 的 ， 浏 览 器 会 启动 在 系统 中 配置 过 用 来 处 理 CSV 数据 
的 软件 ， 它 们 通常 是 类 似 Excel 或 LibreOffice Calc 这 样 的 电子 表格 应 用 。 这 主要 是 办 为 链接 
中 的 最 后 一 个 变量 〈 键 值 对 ) 是 “e=.csv”。 服 务 器 实际 不 使 用 这 个 变量 ， 而 它 总 是 返回 CSV 
格式 的 数据 。 

如 果 使 用 urllib2.urlopen0， 会 返回 的 一 个 CSV 字符 
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>>> from urllib2 import urlopen 

>>> url = 'http://quote.yahoo.com/d/quotes.csv?s-goog&f-slldlclp2' 
>>> u = urlopen(url, 'r') 

>>> for row in u: 


print row 


"GOOG", 600.14,"10/28/2011",+1.47,"+0.25%" 


>>> u.close() 
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接着 需要 手动 解析 这 个 字符 串 (去 除 末 尾 空格 ， 
Wer 2, UHV es HU Ceo 233. RANT QUA 字符 串 并 去 除 
空格 。 通 过 csv， 可 以 使 用 下 面 的 代码 蔡 换 掉 前 面 示例 ， 



























































>>> import csv 
>>> for row in csv.reader(u): 


print row 


['GOOG', '600.14', '10/28/2011', '*1.47', 


通过 分 析 由 URL 字符 串 传 递 给 服务 器 的 参数 字段 f， 以 及 阅读 Yahoo! 针 对 该 服务 的 在 线 
帮助 ， 可 以 发 现 符号 (slldlclp2) 分 别 对 应 股票 代号 、 收 盘 价 、 

















符 切 分 )。 除 了 自行 解 


















































更 多 信息 可 以 阅读 Yahoo! Finance 帮助 页 面 ， 
“download spreadsheet format” 即 可 。 进 一 步 分 析 API 会 发 现 更 多 选项 
周 内 的 最 高 和 最 低 价 等 。 表 13-1 总 结 了 这 些 选项 , 以 及 返 








eT, PERII D. 


# 13-1 Yahoo! 股票 报价 服务 器 参数 

















其 他 内 容 不 变 。 





期 、 变 化 量 、 变 化 百分比 。 
只 须 在 该 页 面 搜 索 “download data” 3% 
， 如 上 一 次 收盘 价 、52 




















这 是 15 年 前 真实 的 Yahoo! 





























































































































股票 报价 数据 TES 返回 格式 ” 
股票 代号 s "YHOO" 
上 次 交易 价格 11 328 
上 次 交易 日 期 dl "2/2/2000" 
上 次 交易 时 间 tl "4:00pm" 
与 上 次 收盘 价 比 较 cl 10.625 
与 上 次 收盘 价 比 较 百分比 p2 "43.35%" 
上 次 收盘 价 p 317.375 
上 次 开盘 价 o 321.484375 
当日 最 高 价 h 337 
当日 最 低 价 g 317 
去 52 周 股价 范围 w "110 - 500.125" 
交易 量 Y 6703300 
市 值 jl 86.343B 
每 股 收益 e 0.20 
TAK r 1586.88 
公司 名 称 n "YAHOO INC" 





























© 字段 名 称 的 第 个 全 符 是 Rh, 第 二 个 全 符 Can gf 1E) ERS o 
© 有 些 返 回 值 含有 额外 的 引号 ， 尽 管 这 些 值 都 是 作为 服务 器 返 
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ag 
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服务 器 根据 用 户 指定 的 顺序 显示 字段 名 称 。 将 这 些 字段 连接 起 来 ， 组 成 单个 字段 参数 f， 
作为 请 求 URL 的 一 部 分 。 就 像 在 表 13-1 脚注 @@ 中 提 到 的 ， 有 些 返 回 的 组 件 分 别 用 引号 括 起 
来 。 这 取决 于 解析 器 提取 数据 的 方式 。 观 察 前 面 例子 中 手动 解析 与 使 用 csv 模块 分 别 得 到 的 
结果 子 字 符 串 。 如 果 无 法 获得 相应 的 值 ， 报 价 服 务 器 会 返回 “N/A” 如 下 面 的 代码 所 示 。 

例如 ， 如 果 使 用 feslldiclp2 辣 服 务 器 发 起 一 个 字段 请 求 , 会 得 到 下 面 这 样 的 字符 串 ( 这 
是 我 在 2000 年 运行 的 查询 结果 )。 

"YHOO",166.203125,"2/23/2000",412.390625, "+8.06%" 


而 对 于 不 再 公开 交易 的 股票 ， 会 得 到 下 面 这 样 的 内 容 (注意 ， 即 使 是 N/A 也 会 用 引号 括 
起 来 ): 




































































































































































"PBLS.OB",0.00, "N/A",N/A, "N/A" 

还 可 以 指定 多 个 股票 代号 ， 输 出 结果 中 每 一 行 显示 一 个 公司 的 数据 。 但 要 注意 Yahoo! 
Finace 帮助 页 面 上 说 的 :“ 在 Yahoo! 上 显示 的 任何 数据 都 严格 禁止 再 次 发 布 ” 所 以 只 能 将 这 
些 数据 作为 个 人 用 途 。 另 外 还 要 注意 ， 这 些 下 载 得 到 的 报价 有 延迟 。 

根据 这 些 内 容 ， 来 构建 一 个 读 取 并 显示 一 些 关 注 的 互联 网 公司 股票 报价 数据 的 应 用 ， 如 
示例 13-1 所 示 。 
























































示例 13-1 Yahoo! Finance 股票 报价 示例 Cstock.py) 
该 脚本 从 Yahoo! quote 服务 器 下 载 并 显示 股票 价格 。 


#!/usr/bin/env python 


1 

2 

3 from time import ctime 

4 from urllib2 import urlopen 
5 


6 TICKs = ('yhoo', 'dell', 'cost', 'adbe', 'intc') 

7 URL = 'http://quote.yahoo.com/d/quotes.csv?s-Xs&f-sllclp2' 
9 print '\nPrices quoted as of:%s PDT\n' % ctime() 

10 print 'TICKER', 'PRICE', 'CHANGE', '%AGE' 


l1 print '------ » ----- y |-T----- y -T--- 

12 u = urlopen(URL % ','.join(TICKs)) 

13 

14 for row inu: 

15 tick, price, chg, per = row.split(',') 

16 print tick, '%.2f' 96 float(price), chg, per, 
17 


18 u.close() 





当 运行 该 脚本 时 ， 输 出 结果 如 下 所 示 。 


$ stock.py 


Prices quoted as of: Sat Oct 29 02:06:24 2011 PDT 
TICKER PRICE CHANGE $AGE 
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行 解释 

第 1~7 AT 

这 个 Python 2 脚本 使 用 time.ctime0) 显 示 股 票 信 息 从 Yahoo! 下 载 下 来 的 时 间 点 ， 
urllib2.urlopen() 连 接 到 Yahoo! 的 服务 以 获取 股票 数据 。 接 下 来 是 股票 代号 的 导入 语句 ， 以 及 
获取 所 有 数据 的 固定 URL. 

第 9—12 AT 

这 一 小 块 代码 显示 下 载 股 票 信息 的 时 间 点 ， 并 使 用 urllib2.ulropenO 获 取 请 求 的 数据 《〈 如 
果 读 过 本 书 之 前 的 版 本 ， 会 注意 到 这 里 简化 了 输出 代码 ， 感 谢 之 前 眼 尖 的 读者 D. 

第 14~18 íF 

从 Web 下 载 下 来 的 数据 作为 一 个 文件 类 型 的 对 象 打开 ,遍历 该 对 象 获取 每 一 行 , 分 隔 由 
有 逗号 间隔 的 列表 ， 接 着 显示 到 屏幕 上 。 

与 从 文本 文件 读 取 类 似 ,， 这 里 依然 保留 了 行 末 的 终止 符 ， 所 以 需要 向 每 个 print 语句 的 末 
尾 添加 一 个 逗号 ， 来 消除 换行 符 的 影响 ， 和 否则 ， 每 个 数据 行 之 间 会 有 两 个 空 行 。 

最 后 , 注意 , 有些 返回 的 字段 含有 引号 。 本 章 末尾 会 有 香干 练习, 用 来 改进 默认 的 输出 格式 。 


13.3 Twitter 微 博 
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这 一 节 将 会 介绍 通过 Twitter 服务 构成 的 微 博世 界 。 它 首先 简要 介绍 社交 网 络 ， 描 述 
Twitter 所 扮演 的 角色 ， 了 解 其 提供 的 多 种 Python 接口 ， 最 后 ,分 别 介绍 一 个 简单 和 一 个 相对 
较 复 杂 的 示例 。 


13.3.1 社交 网 络 


过 去 五 年 多 来 ,社交 媒体 得 到 了 长 足 的 发 展 。 它 首先 仅仅 是 一 个 简单 的 概念 ， 如 Web 登 
录 ， 或 发 布 一 些 简短 的 消息 。 这 种 类 型 的 服务 需要 用 户 登 录 账号 ， 用 户 可 以 发 布 文章 或 其 他 
式 的 文体 。 可 以 将 其 想象 为 公共 在 线 期 刊 或 日 记 ， 人 们 可 以 对 当前 事件 发 布 观点 或 批评 ， 
或 任何 想 让 别人 知道 的 事情 。 

但 在 线 意味 着 全 世界 都 会 知道 分 享 的 内 容 。 用 户 无 法 只 针对 特定 的 人 或 组 织 ， 如 朋友 或 
家 人 ， 发 布 信息 。 因 此 诞生 了 社交 网 络 ，MySpace、Facebook、Twitter 和 Google+ 就 是 最 广 
为 人 知 的 。 通 过 这 些 系 统 ， 用 户 可 以 与 他 们 的 朋友 、 家 人 、 同 事 ， 以 及 社交 图 内 的 人 沟通 。 


























































































































































































































尽管 对 于 用 户 来 说 ， 








这 些 服 务 大 同 小 异 。 但 
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的 区 别 。 比 如 各 自 的 交 


E 





然 有 各 




















互 方式 就 不 同 ， 因此, 3 
接着 深入 了 解 Twitter。 
MySpace 主要 面 疝 各 
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这 些 社交 网 络 ? 


FHA OB! 
但 现在 面向 所 有 人 和 群 。 与 MySpace THEE, Fa 
， 这 是 让 Facebook MW EVA 
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全 处 于 竞争 


FE. 








关系 。 首 先 介绍 各 个 社交 工具 ， 























Facebook Mitty 














cebook 是 个 更 加 通 
的 特性 之 一 。Twitter 是 微型 








比 ， 
对 该 多 
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页 域 的 尝试， 试图 提供 

















JP E Twitter 上 发 布 状 态 ， 通 常 是 对 某 件 
与 其 他 了 























在 这 些 常见 的 社交 媒体 应 


























态 信息 ， 称 为 推 文 。 其 
兴趣 的 人 。 
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事 的 观点 。 











于 大 学 生 ， 
的 平台 ， 可 以 在 上 面 托管 应 
! 博 客服 务 ,与 传统 博客 相 



































而 Google+ 是 这 个 因特网 巨人 最 近 
[有 具 相似 的 功能 ， 同 时 也 包 操 





一 些 新 的 功能 





























中 ,最 基本 的 是 Twitter。 用 户 可 以 使 用 Twitter 发 布 短 小 的 状 


也 人 可 以 “关注 ”你 ， 即 订阅 你 的 扒 


主 其 


LAN 





文 。 同 样 ， 你 也 可 以 关注 其 他 感 














将 Twitter 称 为 微型 
博文 ， 而 每 条 
的 ， 它 是 通 
能 处 理 160 个 ASCII 


将 事情 表述 清楚 。 



































PS Ate 


字符 。 

















! 博 客服 务 是 因 
E 文 最 长 限制 为 140 个 字符 。 这 个 长 度 限制 主要 是 因 
过 短 消 息 服务 (har Message Service, SMS) 支持 











为 与 标准 


博客 不 同 ， 标 














13.3.2 Twitter 和 Python 














Twitter API FAET 
com/docs/twitter-libraries#python ) 。 














F Python 库 。 


在 Twitter 的 








开发 者 文档 中 有 介 


cH 





准 博 客 允 许 用 户 创 建 任何 长 度 的 
为 该 服务 原先 是 面向 手机 
的 Web 和 文本 信息 ，SMS 只 























这 样 用 户 不 用 阅读 元 长 的 内 容 ， 而 发 布 者 则 必须 在 140 个 字符 内 





绍 Chttps://dev.twitter. 





这 些 库 之 间 既 有 相同 点 ， 又 有 各 自 的 特点 ， 所 以 建议 读者 自 



































己 分 别 试用 一 下 ， 找 到 最 适合 自 





己 的 库 。 


不 做 过 多 的 限 种 




















ix H 


|， 本 章 将 会 使 用 到 Twython 和 


Tweepy。 这 两 个 库 分 别 位 于 http://github.com/ryanmcgrath/twython 和 http://tweepy.github.com. 


与 大 多 数 Python 包 相 同 ， 可 以 选择 easy intall 或 pip 分 别 安 装 ， 也 可 以 月 


























H— SK LA 


时 安装 这 两 个 库 。 如 果 对 库 的 源码 感 兴趣 ， 可 以 在 GitHub 上 了 解 对 应 的 代码 库 。 另 外 ， 可 
以 直接 从 GitHub 上 下 载 最 新 的 .tgz 或 .zip 格式 的 文件 , 然后 调用 经 典 的 setup.py install 命令 





Hn 


安装 。 


$ sudo python setup.py 
Password: 

running install 
running bdist egg 


running egg info 


install 


creating twython.egg-info 





Finished processing dependencies for twython--1.4.4 
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类 似 Twython 这 样 的 库 需要 通过 一 些 额外 的 方式 与 Twitter 交互 。 其 依赖 于 httplib2、 
oauth2 和 simplejson。( 最 后 一 个 在 Python 2.5 之 前 作为 外 部 json Æ, M Python 2.6 开始 成 








为 标准 库 。) 
起 步 
为 了 能 













































































始 上 手 ,这 里 用 一 个 简单 的 示例 介绍 如 何 使 用 Tweepy 库 在 Twitter 上 进行 搜索 。 


# tweepy-example.py 




















import tweepy 


results = tweepy.api.search(q-'twython3k') 
for tweet in results: 








print 
print 


print 


! User: @%s' $ tweet.from user 
! Date: $s' $ tweet.created at 
! Tweet: $s' $ tweet.text 








如 果 执 行 这 个 Python 2 脚本 在 本 书 编写 时 ，Tweepy 还 不 支持 Python 3) 进行 查询 ， 读 
者 会 注意 到 这 个 搜索 的 关键 字 是 专门 选 定 的 ， 只 能 找到 很 少 的 搜索 结果 。 也 就 是 说 ， 无 论 使 
Python 3 版 本 的 Twython Fe, 还 是 这 个 Tweepy 版 ,Twitter 只 会 返 












































几 条 推 文 〈 在 本 书 编写 时 )。 


LH 

















$ python twython-example.py 


need to fil 


User: @wescpy 


Date: 


Tue, 04 Oct 2011 21:09:41 +0000 
Tweet: T 


esting posting to Twitter using Twython3k (another story of life on the bleeding edge) 


User: @wescpy 


Date: 
Tweet: 


Tue, 04 Oct 2011 17:18:38 +0000 


@ryanmcgrath cool... thx! i also have a &quot;real&quot; twython3k bug i 
e... will do it officially on github. just giving you a heads-up! 


User: @wescpy 





Date: Tue, 04 Oct 2011 08:01:09 +0000 
Tweet: @ryanmcgrath Hey ryan, good work on Twython thus far! 
Can you pls drop twitter endpoints.py into twython3k? It's out-of- date. .. thx! :-) 
































调用 Tweepy 库 的 search() 会 获得 一 个 推 文 列表 。 代 码 人 遍历 列 表 中 的 推广 并 显示 其 中 感 兴 
趣 的 部 分 。Twython 是 一 个 类 似 的 Python 库 ， 提 供 了 Twitter API. 
Twython 与 Tweepy 类 似 ， 但 也 有 自己 的 特点 。Twython 同时 支持 Python 2 和 3， 但 输出 










































































的 结果 不 用 对 象 ， 而 是 用 纯 Python 字典 来 持 有 结果 数据 。 将 前 面 的 tweepy-example.py 与 这 


H 


















































里 的 twython-example.py 脚本 进行 比较 ， 后 者 兼容 Python 2 和 3。 








twython-example.py 





from distutils.log import warn as printf 


try: 


import twython 


distutils.log.warn() FA Zt & Python 2 ! 
者 还 可 以 党 
Twython.searchTwitter0 的 输出 
象 都 是 一 个 字典 列表 ， 表 示 


except ImportError: 
import twython3k as twython 


TMPL = '''N 
User: @% 
Date: 
Tweet: 


(from_user)s 
$(created at)s 
$(text)s 


twitter = twython.Twython() 
data = twitter.searchTwitter (q-'twython3k') 
for tweet in data['results']: 

printf(TMPL $ tweet) 























试 导 入 Python £i 3 | 























条 推 文 。 























方便 地 i 





HH] 《付出 的 代价 是 需要 使 






























































这 里 还 有 其 


然后 将 输 











他 改动 ， 如 不 使 用 纯 单行 输出 ， 





print 语句 和 Python 3 中 print 函数 的 代理 。 
的 Twython 库 ， 希 望 至 少 有 一 个 会 成 功 。 

结果 是 一 个 字典 ,该 对 象 在 字典 的 “results” 刍 中， 每 个 对 
因为 结果 是 个 字典 ， 这 样 就 可 以 简化 显示 ， 
字符 串 模 板 来 展开 字典 中 含有 的 键 值 )。 
将 所 有 字符 中 
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同时 读 





还 可 以 更 


BB 放 到 一 个 大 的 字符 串 模 板 中 ， 

















i 出 的 字典 传递 给 字符 串 模 板 。 这 样 








模板 《无论 是 字符 串 模板 还 是 Web 模板 )。 


























这 里 输 
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里 就 不 习 











出 的 结果 与 Tweepy 版 本 相同 ， 所 以 这 











做 的 原因 是 在 实际 应 用 中 经 常会 使 


RET. 














种 形式 的 








JA 



































































































































































































































13.3.3 稍微 长 一 点 的 AP| 组 合 应 用 示例 

这 些 简单 短小 的 示例 可 以 快速 地 让 读者 上 手 。 但 在 现实 当中 会 遇 到 不 同 的 场景 ， 因 此 本 
能 需要 使 用 或 集成 多 种 类 似 的 API。 下 面 通 过 一 个 稍微 长 一 点 的 示例 来 练习 。 这 里 将 编写 一 
个 兼容 库 ， 通 过 同时 使 用 Tweepy 和 Twython 来 支持 一 些 基 本 的 Twitter 命令 。 这 个 练习 会 帮 
助 读者 学 习 这 两 个 库 ， 并 更 加 熟悉 Twitter 的 API. 

验证 

在 继续 这 个 练习 之 前 ， 读 者 需要 一 个 Twitter 账号 。 如 果 没 有 ， 访 问 http:/ twitter.com 并 
注册 一 个 。 RUNE 户 名 和 密码 进行 验证 (更 现代 的 方式 包括 生物 方式 的 验证 ， 如 指纹 或 
视网膜 扫描 )。 这 些 凭证 仅 用 于 身份 验证 ， 数 据 访 问 则 是 另外 一 回 事 。 

授权 

验证 并 不 意味 着 可 以 访问 数据 (任何 人 的 数据 都 不 行 ), 还 需要 正确 的 授权 。 在 通过 Twitter 
或 第 三 方 授权 后 才能 访问 自己 或 其 他 人 的 数据 ， 如 允许 外 部 应 用 下 载 Twitter 消息 或 通过 
Twitter 账号 发 布 状态 来 更 新 Twitter 账号 。 
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为 了 通过 Twitter 获取 授权 和 凭证， 需要 创建 一 个 应 用 。 可 以 在 http://dev.twitter.com 中 完成 这 个 
任务 。 至 少 拥有 一 个 应 用 ， 然 后 再 单 击 需 要 授权 的 应 用 。URL 类 似 于 https:;//dev.twitter.com/apps/ 
APP-ID/show, 这 里 可 以 看 到 访问 Twitter 数据 所 需 的 OAuth 设置 , 它 包 括 4 个 重要 的 部 分 :consumer 
key、consumer secret、access token 和 access token secret， 它 们 都 用 来 访问 Twitter 上 的 数据 。 

获取 这 4 块 有 价值 的 数据 后 , 将 其 放置 在 一 个 安全 的 地 方 ， 也 就 是 说 , 不 能 放 在 源码 中 1! 
在 这 个 例子 中 ， 将 这 些 数 据 另 存 到 一 个 名 为 tweet_auth.py 模块 的 4 个 全 局 变量 里 。 在 最 终 的 
应 用 中 会 导入 这 个 模块 。 实 际 应 用 中 ， 要 么 发 布 编译 过 的 字 节 码 .pyc《〈 不 是 纯 文 本 )， 要 人 么 ; 
过 数据 库 或 网 络 上 的 其 他 位 置 访问 这 些 数据 ， 最 好 是 加 密 过 的 。 现 在 所 有 内 容 都 设置 完毕 ， 
在 描述 代码 前 先 介绍 应 用 本 刁 。 


一 个 混合 的 TwitterApP1 应 用 

这 个 应 用 执行 4 个 操作 : 首先 它 输出 在 Twitter 上 搜索 的 结果 ; 接着 ， 它 获取 并 输出 当前 
更 详细 的 信息 ;然后 ， 它 获取 并 输出 当前 用 户 发 布 消息 的 时 间 线 ， 最 后 ， 它 为 当前 用 户 
发 布 一 条 推 文 。 这 4 个 操作 都 执行 两 次 : 一 次 使 用 Tweepy 库 ， 另 一 次 使 用 Twython 库 。 为 
了 完成 这 个 任务 ， 需 要 支持 4 个 Twitter API 命令 ， 如 表 13-2 所 示 。 
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$ 13-2 混合 Twitter API 应 用 的 4 个 命令 

















































































































$ 4 H 
search 采 ge essen eet Twitter 上 进行 搜索 。 这 是 未 经 验证 的 调用 (应 用 中 只 有 这 一 
个 )， 意 味 着 任何 人 都 能 
verify. credentials 判断 已 验证 用 户 的 身份 是 否 合 法 
user. timeline 获取 已 验证 用 户 最 新 的 推 文 
update status 更 新 已 验证 用 户 的 状态 ， 也 就 是 说 发 布 一 条 新 的 推 文 







































































这 款 应 用 同时 使 用 了 bui 和 Tweepy。 最 后 ， 代 码 会 在 Python 2 和 Python 3 中 运行 。 
也 就 是 说 ， 代 码 中 有 这 4 个 命令 ， 并 实例 化 两 个 库 ， 接 着 含有 文 持 每 个 命令 的 代码 。 准 备 好 
了 吗 ? 查看 示例 13-2 中 的 twapi.py。 
















































































示例 13-2 Twitter API 组 合 库 示例 Ctwapi.py) 


里 演示 使 用 Twython 和 Tweepy 库 与 Twitter 交互 。 




















5 





#!/usr/bin/env python 


l 

2 

3 from distutils.log import warn as printf 
4 from unittest import TestCase, main 

5 from tweet_auth import * 

6 

7 # set up supported APIs 

8 CMDs = { 

9 'twython': { 

l 


0 'search': 'searchTwitter', 


'verify credentials': 
'user timeline': 
'update status': 
, 

'tweepy': dict.fromkeys(CC 
'search', 
'verify credentials', 
'user timeline', 
'update status', 

). 


None, 
'getUserTimeline', 
None, 
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69 self.twitter = tweepy.API(auth) 

70 else: 

71 self.twitter = tweepy.api 

72 

73 def get meth(self, cmd): 

74 api = self.api 

75 meth name = CMDs[api][cmd] 

76 if not meth name: 

77 meth_name = cmd 

78 if api == 'twython' and ' ' in meth name: 

79 cmds = cmd.split(' ') 

80 meth name = '%s%s' % (cmds[0], cmds[1].titleO) 
81 return getattr(self.twitter, meth name) 

82 

83 def search(self, q): 

84 api = self.api 

85 if api == 'twython': 

86 res = self._get_meth('search') (q=q)['results'] 
87 return (ResultsWrapper(tweet) for tweet in res) 
88 elif api == 'tweepy': 

89 return (ResultsWrapper(tweet) 

90 for tweet in self. get meth('search')(q-2)) 
91 

92 def verify_credentials(self): 

93 return ResultsWrapper( 

94 self._get_meth('verify_credentials')()) 

95 

96 def user_timeline(self): 

97 return (ResultsWrapper (tweet) 

98 for tweet in self. get meth('user timeline')()) 
99 

100 def update status(self, s): 

101 return ResultsWrapper( 

102 self. get meth('update status')( status-s)) 

103 

104 class ResultsWrapper(object): 

105 "ResultsWrapper -- makes foo.bar the same as foo['bar']" 
106 def _ init__(self, obj): 

107 self.obj = obj 

108 

109 def _str_ (self): 

110 return str(self.obj) 

111 

112 def repr (self): 

113 return repr(self.obj) 

114 

115 def  getattr (self, attr): 

116 if hasattr(self.obj, attr): 

117 return getattr(self.obj, attr) 

118 elif hasattr(self.obj, ' contains ') and attr in self.obj: 
119 return self.obj[attr] 

120 else: 

121 raise AttributeError( 

122 '%r has no attribute %r' % (self.obj, attr)) 
123 

124 . getitem =  getattr - 

125 


126 def demo search(Q: 


127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
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for api in APIs: 

printf(api.upper()) 

t = Twitter(api, auth=False) 

tweets = t.search('twython3k') 

for tweet in tweets: 
printf('----' * 10) 
printfC'@%s' % tweet.from user) 
printf('Status: %s' 96 tweet.text) 
printf('Posted at: %s' % tweet.created at) 

printf('----' * 10) 


def demo ver credsQ: 


for api in APIs: 
t = Twitter(api) 
res = t.verify credentials) 
status = ResultsWrapper(res.status) 
printf('G9s' % res.screen name) 
printf('Status: %s' % status.text) 
printf('Posted at: %s' % status.created at) 
printf('----' * 10) 


148 def demo user timeline(): 


149 
150 
151 
152 
153 
154 
155 
156 
157 
158 


for api in APIs: 

printf(api.upper()) 

t = Twitter(api) 

tweets = t.user_timeline() 

for tweet in tweets: 
printf('----' * 10) 
printf('Status: %s' % tweet.text) 
printf('Posted at: %s' 96 tweet.created at) 

printf('----' * 10) 


159 def demo update status(): 


160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 


for api in APIs: 
t = Twitter(api) 
res = t.update_status( 
"Test tweet posted to Twitter using %s' % api.titleO) 
printf('Posted at: %s' % res.created at) 
printf('----' * 10) 


# object wrapper unit tests 
def unit dict wrapO: 


d = {'foo': 'bar') 
wrapped = ResultsWrapper(d) 
return wrapped['foo'], wrapped.foo 


def unit attr wrapO: 


class C(object): 
foo = 'bar' 
wrapped - ResultsWrapper(C) 
return wrapped['foo'], wrapped.foo 


class TestSequenceFunctions(TestCase): 


def test dict wrap(self): 
self.assertEqual( unit dict wrap(), ('bar', 'bar')) 


def test attr wrap(self): 
self.assertEqual( unit attr wrap(), ('bar', 'bar')) 
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186 if name == ' main ': 

187 printf('\n*** SEARCH') 

188 demo search() 

189 printf('\n*** VERIFY CREDENTIALS') 
190 .demo ver -creds 

191 printf('\n*** USER TIMELINE') 
192 demo user timeline() 

193 printf('Xn*** UPDATE STATUS') 
194 .demo update status() 

195 printf('Xn*** RESULTS WRAPPER') 
196 main() 














在 介绍 这 个 脚本 之 前 ， 先 运行 并 查看 其 输出 。 要 确保 首先 创建 一 个 tweet_auth.py 文件 ， 





















































其 中 含有 以 下 这 些 变量 〈 以 及 Twitter 应 用 中 正确 的 对 应 值 )。 
# tweet auth.py 
consumer key = 'SOME CONSUMER KEY' 
consumer secret - 'SOME CONSUMER SECRET' 
access token - 'SOME ACCESS TOKEN' 
access token secret - 'SOME ACCESS TOKEN SECRET' 





现在 可 以 开始 了 。 当 然 ， 这 是 在 编写 本 书 时 执行 程序 得 到 的 输出 结果 ， 读 者 得 到 的 肯定 
会 与 此 不 同 。 下 面 是 执行 s ibit: (“...” 表 示 省 略 了 一 些 输出 内 容 以 缩短 篇 幅 )。 


$ twapi.py 






































*** SEARCH 

TWYTHON 

Gryanmcgrath 

Status: #twython is now version 1.4.4; should fix some utf-8 decoding 
issues, twython3k should be caught up, etc: http://t.co/s6fTVhOP /cc 
@wescpy 

Posted at: Thu, 06 Oct 2011 20:25:17 +0000 


Status: Testing posting to Twitter using Twython3k (another story of 
life on the bleeding edge) 
Posted at: Tue, 04 Oct 2011 21:09:41 +0000 


Status: @ryanmcgrath cool... thx! i also have a &quot;real&quot; 
twython3k bug i need to file... will do it officially on github. just 
giving you a heads-up! 

Posted at: Tue, 04 Oct 2011 17:18:38 +0000 





@wescpy 
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'verify credentials': None, 
'user timeline': 'getUserTimeline', 
'update status': None, 


'tweepy': dict.fromkeys(C(C 
'search', 
'verify credentials', 
'user timeline', 
'update status', 
334 
} 
APIs = set(CMDs) 


# remove unavailable APIs 
remove = set() 
for api in APIs: 
try: 
__import__(api) 
except ImportError: 
try: 
__import__('%s3k' % api) 
except ImportError: 
remove.add(api) 


APIs.difference_update(remove) 
if not APIs: 
raise NotImplementedError( 
"No Twitter API found; install one & add to CMDs!') 


class Twitter(object): 
"Twitter -- Use available APIs to talk to Twitter' 
def _ init__(self, api, auth=True): 
if api not in APIs: 
raise NotImplementedError( 
'%r unsupported; try one of: %r' % (api, APIs)) 


self.api = api 
if api == 'twython': 
try: 
import twython 
except ImportError: 
import twython3k as twython 
if auth: 
self.twitter = twython. Twython( 
twitter_token=consumer_key, 
twitter_secret=consumer_secret, 
oauth_token=access_token, 
oauth_token_secret=access_token_secret, 
) 
else: 
self.twitter = twython.Twython() 
elif api == 'tweepy': 
import tweepy 
if auth: 
auth = tweepy.OAuthHandler(consumer key, 
consumer_secret) 
auth.set_access_token(access_token, 
access_token_secret) 


544 第 2 部 分 Web 开发 


Status: I'm wondering: will future Apple products visually be designed 
as well & have as much impact on the market? What do you think? 
Posted at: Thu Oct 06 00:02:16 +0000 2011 


Status: .@imusicmash That's great that you're enjoying corepython.com! 
Note: there will be lots of cookies at #SVCC: yfrog.com/khlazqznj 
Posted at: 2011-10-07 22:37:37 


*** UPDATE STATUS 
Posted at: Sat Oct 08 05:18:51 +0000 2011 





Posted at: 2011-10-08 05:18:51 


Ran 2 tests in 0.000s 


OK 
$ 


从 中 可 以 看 到 运行 了 4 个 函数 , 3X 4 个 函数 执行 时 分 别 使 用 了 Tweepy 库 和 Twython 库 。 
如 果 安 装 没有 问题 , 在 Windows 上 执行 脚本 时 会 获得 相同 的 结果 。 因为 代码 也 兼容 Python 3, 
所 以 在 Python 3 中 也 得 到 类 似 的 输出 ， 但 只 能 看 到 Twython 的 输出 ， 因 为 Tweepy 在 本 书 编 
写 时 还 不 支持 Python 3。 现 在 来 进一步 了 解 代 码 。 





































































































cr 











































































































这 里 含有 一 些 导入 语句 ， 包 括 导 入 标准 库 〈 使 用 distutils.log.warnOTF A print 语句 或 函数 
的 代理 ， 有 具体 取决 于 是 Python 2 还 是 Python 3， 还 有 一 些 在 Python 中 运行 单元 测试 的 基本 属 
性 )， 以 及 Twitter 授权 凭证 。 

还 要 提醒 的 是 ， 在 一 般 情 况 下 ， 不 鼓励 使 用 “from module import *" €& 5 行 )， 因 为 标 
准 库 和 第 三 方 库 中 可 能 含有 与 该 模块 相同 的 变量 名 称 ， 这 样 会 有 潜在 的 问题 。 在 这 里 ， 完 全 
Y fi tweet_auth.py 并 知道 其 中 所 有 (4 个 ) 变量 。 该 模块 的 唯一 目的 是 隐藏 用 户 的 凭证 信息 。 
在 实际 生产 环境 中 ， 这 样 一 个 文件 要 么 作为 编译 过 的 字 节 码 (.pyc) 或 优化 过 的 文件 Cpyo), 
要 么 来 自 数据 库 或 网 络 调用 ， 需 要 说 明 的 是 ，.pyc 和 .pyo 两 者 都 是 人 类 不 可 读 的 。 
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库 ， 就 这 样 。 


























第 一 块 实际 代码 只 完成 了 一 件 事 ， 即 让 Python 解释 器 











CMD 是 一 个 字典 ， 其 ! 























在 本 章 末尾 的 练习 中 ， 会 添加 第 三 个 库 。 




















了 解 可 以 使 用 哪个 Twitter 客户 端 





还 有 两 个 字典 项 ， 分 别 是 Twython(twython)fll Tweepy(tweepy)。 











对 于 每 个 库 , 提供 方法 名 表示 前 4 个 方法 对 应 的 Twitter API 命 令 , 如 果 该 值 是 None, 











这 意味 着 方法 名 完全 匹配 。 


不 一 致 。 




















如 果 使 用 其 他 值 ( 即 不 是 No 





ne)， 即 表示 方法 名 与 API 命令 






































Tweepy 较为 简单 ， 其 方法 名 与 命令 完全 匹配 。 因 此 ， | dict.fromkeys() i!) 427 HAIN , 








所 有 键 的 值 都 是 None。Twython 就 有 点 麻烦 ， 因 为 其 使 用 
地 方 。 第 71 一 80 行 描述 了 为 什么 使 用 这 些 名 称 和 方法 。 
在 第 22 行 ， 将 所 有 支持 的 API 放 到 集合 中 。 在 Python 中 ， 最 快速 检测 是 否 包含 的 方式 























































































































现在 需要 看 实际 当中 可 能 使 用 哪些 ， 把 不 能 用 的 去 除 。 








第 25—33 行 的 代码 尝试 导入 各 个 库 , 将 无 法 
































峰 命 名 法 ， 且 有 与 规则 不 一 致 的 




















是 使 用 集合 数据 结构 ， 同 时 遍历 这 个 变量 中 的 所 有 API。 到 目前 为 止 ， 仅 创建 了 可 能 的 API, 


导入 的 API 移动 到 另 一 个 含有 不 存在 的 API 





的 remove 集合 中 。 循 环 结束 后 ， 就 知道 缺少 哪些 API， 把 这 些 缺 失 的 API 从 全 体 API 中 删 








除 (第 35 行 )。 如 果 两 个 
第 40~71 行 

















库 都 不 可 














Twitter 类 是 该 应 用 的 头等 对 象 。 该 类 定义 了 初始 化 函 





twython， 要 么 是 tweepy), punte auth 标记 。 该 标记 默认 为 True， 因 为 大 部 
j 户 数据 (Search 是 唯一 不 需要 验证 的 函数 ), 然后 将 选 定 的 API 


需要 验证 和 授权 才能 访 | 
缓存 到 self.api 


Hj 





















































qx 节 剩余 的 部 分 JÆ É 48~71 íT) 实例 化 Twitter 
该 对 象 是 执行 Twitter API 命令 的 处 理 程序 。 








第 73 一 81 íF 
































J, UES 36—38 行 抛 出 NotImplementedError 异常 。 




















数 ， 获 取 api (在 这 里 ， 要 么 是 
分 时 


US 








， 并 将 该 实例 赋值 给 self.twitter. 




















_get_meth() 方 法 处 理 特殊 情况 , 将 每 个 API 的 调用 与 正确 的 方法 名 称 整合 到 一 起 。 注意 ， 














该 方法 前 面 有 单条 下 划 线 。 
由 该 类 中 的 其 他 方法 调用 。 


















































这 种 标记 法 表示 该 方法 不 应 该 由 























用 户 调用 , 而 它 是 一 个 内 部 方法 ， 


























可 以 在 该 方法 中 直接 使 用 selfapi， 但 众所周知 ， 最 佳 实践 是 将 经 常 使 用 的 实例 属性 赋值 




















给 局 部 变量 。 使 


SS 








1 self.api ri 








74 行 赋值 给 局 部 变量 。 














需要 两 次 查询 ， 而 “api” 只 需 











查询 并 不 耗 时 很 多 ， 但 如 果 在 类 型 循环 中 或 经 常 执行 它 ， 姑 





























下 一 行 中 ， 查 询 来 自 请 求 API 里 相应 的 命令 ， 并 赋值 给 























次 ， 从 CPU 时 间 上 来 看 ， 另 一 次 
F 销 就 会 增 大 。 这 就 是 为 什么 在 第 

















meth_name。 如 果 它 是 None， 则 











默认 行为 是 命令 与 方法 名 称 相同 。 对 于 Tweepy, (Ria, H 
全 相同 。 接 下 来 的 几 行 用 于 人 处理 特殊 情况 ， 来 获得 正确 的 名 称 。 























if 面 提 到 过 ， 其 方法 名 与 命令 名 完 
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JT 


F 划 线 将 每 个 单词 分 开 ， 


前 面 提 到 过 ，Twython 使 





















































使 用 这 





个 名 字 从 请 ， 


第 83—102 íF 
支持 的 4 个 Twitter 命令 

































































求 的 API + 

















驼峰 命名 法 ， 而 不 是 
接着 将 其 追加 到 第 一 个 单词 后 
获取 方法 对 象 ， 这 是 


由 4 个 函数 实现 : 
































^B 


























下 划 线 分 只 


通过 

















单词 。 
fl (38 79—80 行 )。 最 后 


必须 先 根 
个 行为 是 


这 意味 着 ， 























个 头等 对 象 ， 把 











KE 
已 直接 返回 给 调用 者 。 











search(). verify credentials(). user timeline(). 




























































































update status(). BRS search0O 之 外 ， 其 他 三 个 很 简单 ， 两 个 库 的 使 用 方式 几乎 相同 。 首 先 看 
后 面 三 个 ， 最 后 再 深入 了 解 search(). 

验证 已 经 通过 身份 验证 的 用 户 信 息 仅 仅 是 verify. credentials 命令 能 做 的 其 中 一 件 事 。 该 
命令 同时 能 用 编程 方式 最 快 地 访问 最 新 的 推 文 。 用 户 信息 会 打包 成 ResultsWrapper《〈 后 面 会 
进一步 介绍 )， 接 着 返回 给 调用 者 。 关 于 使 用 这 条 命令 的 更 多 信息 可 以 参考 Twitter 文档 












































Chttp://dev.twitter.com/docs/api/l/get/account/verify credentials) 。 


H 











返 


H 





最 近 的 20 条 ， 而 使 月 








的 一 个 练习 中 会 月 


statuses/user timeline. 





H count 参数 可 以 最 多 请 求 200 条 ， 不 过 这 


日 户 的 时 间 线 由 最 近 发 布 的 推 文 和 转 推 组 成 。user_timeline 这 个 Twitter 





AAN 
命令 4 


BRU oU F 








E 














日 到 。 


是 返回 来 自 Twitter 的 整个 


FBO), ZANTE 





基本 的 功 


Twitter 最 

















关于 该 函数 的 更 多 信息 可 以 参考 http:/dev. t 
与 verify_credentials() 不 同 ，user_timeline 封装 每 条 和 
成 器 表达 式 ， 迭 代 返 回 
的 状态 ， 也 就 是 ， 发 布 # 
JUG H, update status 接受 额外 的 参数 s， 这 


Akb FH 
HG AE 


能 ， 就 不 能 称 之 为 Twitter 了 。 从 代码 


文 的 文本 。 RIFE ETE SCA A 


结果 ， 

















里 没有 月 














日 到 ， 但 本 章 末 尾 





witter.com/docs/api/1/get/ 











返回 一 个 4 








单独 的 推 文 ， 而 不 











Ep 
j X. o 




















H 





















































现在 返回 search. Twython 和 Tweepy 两 个 库 对 这 个 API Jil 
比 普 











ys 





T 











通 





进行 查找 )。 


子 类 ， 
额外 的 元 数据 呢 ? 那些 只 是 返 





对 





青 形 多 。Twython 试图 
这 种 数据 结构 含有 多 个 元 数据 ， 








在 “ 








户 可 以 更 新 自己 








HJ 



































被 ResultsWrapper 封装 )， 通 过 最 重 

















results " 





而 Tweepy 更 加 现实 ， 直 接 以 列 








X 




















因为 开发 者 知道 





] 户 实 
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J% 














RRE 是 通 


AEJB 




















Ei AN 


读者 是 AA 

















接口 





, B] foo.bar。 


ResultsWrapper 类 的 工作 。 





有 关系 ， 仅 仅 用 来 方便 用 户 ， 为 这 些 库 
为 不 一 致 的 对 象 类 型 
于 字典 对 象 ， 需 要 通过 
象 的 属性 





. getitem 


ob 
Be f 





际 上 想 要 什么 。 
回 的 ResultsSet 的 属性 


返回 
Vii p 


文 已 经 创建 并 已 发 布 。 下 面 代码 ! 
参考 http://dev.twitter.com/docs/api/1/post/statuses/update。 

方式 有 所 区 别 ， 所 以 代码 要 
原原本本 解释 Twitter 返回 的 结果 ， 将 ISON 装 成 Python 字典 
的 信息 《需要 在 第 86 fT 


ERIT SOR 





， 可 以 在 任何 地 方 使 用 ,包括 在 这 个 应 用 之 
的 对 象 提供 
EKOT, 




















0 调 











获取 值 ， 即 foo[bar], 
做 到 不 管 是 什么 对 象 ， 


键 下 还 会 发 现 一 些 有 月 


这 

















的 created_at 演示 了 这 个 功能 








文 。 如 果 没 有 这 个 功 
是 推 
要 的 特性 (created_at 


。 关 于 该 函数 
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搜索 





H 





结果 ， 实 
T, 47 

















ERE, ResultsSet 是 列表 的 








CREE IM 
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省 了 将 来 查找 的 时 间 。 那 么 














o» T 



































'«m 


通 月 




















日 接口 。 


外 。 该 类 与 Twitter 库 没 














KA 

















比如 字 





型 或 对 象 类 型 ? 我 的 意思 是 
而 对 于 对 象 ， 


需要 处 下 











E 
对 














H 


可 以 同时 使 





这 两 个 方式 ? 





LAE 


在 编写 本 书 时 ， 我 刚刚 接触 这 些 ， 所 以 可 能 不 够 完善 , 但 其 思想 是 将 任何 Python 对 象 封 
装 到 一 个 对 象 中 ， 将 查询 (通过 ”getitem” 0 或 ”getattr 0) 委托 给 封装 对 象 〈 对 于 委托 的 

















i 
— 
Id 
H 
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内 容 ， 可 以 阅读 Core Python Programming 或 者 Core Python Language Fundamentals 的 


Object-Oriented Programming ) 。 











在 初始 化 函数 中 (第 106—107 行 ) 封装 对 象 。 然 后 使 月 









































对 象 中 ， 所 以 检查 它 是 否 是 一 个 “ 键 ”( 第 118 一 119 行 )。 当 然 ， 在 使 月 
要 检查 该 对 象 是 否 支 持 这 种 类 型 的 检查 或 访问 ， 即 首先 检查 对 象 是 
































H str _ 以 字符 








IJ 
































如 果 所 有 else 都 失败 ， 则 告知 用 户 处 理 失败 〈 第 120—122 13. 。 


























最 后 一 行 〈 第 124 行 ) 用 来 应 对 

































































IPAR 

















KEH. RIER getitem_ H5 getatr 0 完全 相同 的 行为 。 因 











是 什么 ， 都 能 获得 并 返回 用 户 需 要 的 
第 126—165 行 











Ad. 























demo *Q 函数 的 名 副 其 实 : — demo searchO TEE as f. fi 











“twython3k”， 并 显示 搜索 推 文 的 结果 数据 。_demo_ver_creds0 执 行 verify_credentials 






































和 所 有 可 用 

















的 形式 表示 对 象 


API 搜 


命令 ， 并 








字典 的 方式 访问 属性 ， 即 将 属性 名 称 作为 键 
此 ， 无 论 封装 的 对 象 类 型 





(第 109—113 行 )。 大 多 数 变 化 发 生 在 _getattr_0 中 。 当 请 求 一 个 没有 识别 的 属性 时 ， 
__getattr_() 检 查 在 封装 对 象 中 是 否 是 存在 该 属性 〈 第 116—117 £D. AEG, uu 


F 在 字典 








Hin 操作 符 之 前 ， 需 
Ti contains 属性 。 

















BARA 























显示 已 验证 用 户 最 近 的 推 文 ，_demo_user_timeline0 获 取 最 新 的 20 条 推 文 ， 显 示 每 条 推 文 的 内 




















容 和 时 间 戳 。 最 后 ，_demo_update_status0 发 布 新 的 推 文 ， 新 # 
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文 介 绍 了 所 


1$ 





| 的 API 





o 


这 一 部 分 代码 用 于 测试 ResultsWrapper 类 。_unit_*_wrap0 函 数 测试 每 个 封装 的 字典 (或 
类 似 字 典 的 对 象 ), 以 及 含有 属性 接口 的 对 象 。 这 两 个 都 通过 属性 访问 , 无 论 是 通过 obj[foo]]， 
还 是 通过 obj.foo 都 会 返回 相同 的 结果 “bar”。 最 后 通过 TestSequenceFunctions 测试 类 完成 这 



































种 验证 〈 第 179—184 49 。 
第 186—196 47 























main0 函 数 显示 正在 测试 哪个 函数 ， 并 调 ) 
























































调用 针对 unittes.mainQ;A Zi, MH FATEMA. 





13.3.4 总结 









































代码 发 挥 这 些 强大 的 功能 来 完成 工作 
这 里 H4r£ 了 两 个 Web 服务 ， 
服务 。 






































而 Twitter 提供 了 完全 的 REST API 和 月 








o 


网 络 上 还 有 












































于 访问 安全 数据 的 OAuth 授权 .我们 能 够 使 








] 特 定 的 _demo_*0) 函 数 显示 其 输出 。 最 后 一 个 











通过 这 一 节 的 内 容 , 希望 读者 扎实 地 掌握 了 一 些 Web 服务 的 接口 ,如 Yahoo! 的 股票 报价 


服务 器 ， 以 及 Twitter。 更 重要 的 是 ， 认 识 到 Yahoo 的 接口 完全 是 由 URL 驱动 的 ， 无 须 授 权 。 




















j Python 








许多 其 他 的 服务 。 下 一 章 还 会 回顾 


这 两 个 
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资源 


2X exi 





Yahoo! Finance 


e  http://gummy-stuff.org/Yahoo-data.htm 
e http://gummy-stuff.org/forex.htm 


Twitter 


e  http://dev.twitter.com/docs/twitter-librariesffpython 
e  http://github.com/ryanmcgrath/twython 
e  http;//tweepy.github.com 


13.4 练习 


Web 服务 


13-1 Web 服务 。 使 用 自己 的 语言 描述 什么 是 Web 服务 。 在 网 上 找到 这 样 一 些 服 务 ， 并 
划 述 其 工作 方式 .包括 服 务 的 API 以 及 如 何 访问 这 些 数据 。 是 否 否 需 要 认证 或 授权 ? 
13-2. REST 和 Web k4. >] REST 和 XML 或 JSON 是 如 何 应 用 在 现代 Web ARI 
和 应 用 中 的 。 与 Yahoo! 报 价 服务 器 ( 它 使 用 URL 参数 ) 这 样 的 老 系 统 相 比 ， 
者 提供 了 哪些 额外 功能 ? 
13-3 REST 和 Web 服务 。 使 用 Python 中 对 REST 和 XML 的 支持 构建 一 个 应 用 框架 
该 框架 允许 共享 并 重用 一 些 代 码 。 这 些 代码 包括 使 用 如 今 新 的 Web 服务 和 API. 
展示 使 用 Yahoo!、Google、eBay、Amazon API 的 代码 。 











































































































EZ 


































































































{ah 





练习 13-4~ 13-11 涉及 本 章 前 面 介 绍 的 Yahoo! 股 票 报价 示例 (stock.py)。 

13-4 Web 服务。 更 新 stock.py 中 下 载 股票 报价 数据 的 内 容 ， 添 加 表 13-1 中 列 出 的 额外 
参数 。 可 以 直接 在 本 章 前 面 的 stock.py 基础 上 添加 新 功能 

13-5 字符 串 处 理 。 读 者 会 注意 到 有 些 返 回 的 字段 含有 引号 ， 移 除 这 些 引 号 。 读 者 能 想 

到 几 种 移 除 引 号 的 方法 ? 

13-6 字符 串 处 理 。 并 不 是 所 有 股票 代号 长 度 都 是 4 个 字符 。 同 样 ， 并 不 是 所 有 股价 都 
在 10 一 99.99 美元 之 间 。 每 日 涨 跌幅 和 百分比 也 是 如 此 。 对 脚本 进行 适当 的 修改 ， 
让 其 可 以 应 对 不 同 长 度 的 结果 。 对 于 所 有 股票 输出 结果 依然 需要 是 格式 化 的 、 对 
齐 的 和 一 致 的 。 下 面 是 一 个 示例 。 


C:\py>python stock.py 
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13-10 


13-11 


13-12 


13-13 


Prices quoted as 


TICKER 


BRK-B 


文件 。 


79.96 


更 新 应 月 


of: Sat Oct 29 02 


CHANGE SAGE 


-0.42$ 
+0.25% 
+2.06% 
+5.10% 
+4.26% 


+0.065 +0.08% 








1:38:53 27011 
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昌 ， 将 股票 数据 保存 到 文件 




















改 脚本 ， 


Web 服务 和 
将 其 转 成 使 
健壮 性 。Yahoo! 倾 向 于 不 





会 











取 主 机 名 





外 汇 。Yahoo! 报 价 服务 器 还 可 以 查询 货币 
并 创建 一 个 新 的 forex.py H 
股票 图 。Yahoo! 还 提供 了 


解 这 个 月 
小 图 : 


让 

















C 




















HW 359144 X AERE B 
在 获取 股价 之 前 先 查 看 服 
访问 Yahool! 股 


o 


























务 






































扩展 API。Yahool! 报 价 服务 器 还 有 
//gummy-stuff.org/Yahoo-data.htm。 选择 若干 
stock.py 脚本 ， 
Python 3。 将 stock.py 移植 到 Python 3 : 
种 方式 让 脚本 同时 运行 在 Python 2.x 和 














o 





器 是 否 可 月 


票 报价 页 面 ， 从 页 面 底 前 





许多 其 他 











命 





新 














由 











Akb FH 
H5 XE 


， 而 不 是 显示 在 





异 幕 上 。 附 加 题 : 





修 





户 选 择 将 股票 信息 显示 出 来 还 是 保存 到 文件 ! 
sv FIR o ER 的 stock.py 文件 使 用 
] esv 模块 解析 输入 数据 ， 类 似 在 示例 代码 段 中 做 的 那样 
汤 修 改 下 载 的 主机 名 。 今天 可 
能 会 变 成 finace.yahoo.com。 本 书 示例 运行 时 的 链接 是 “download.finance.yahoo.com ”。 
的 。 维 护 一 个 主机 列表 ，ping 这 些 主机 上 的 Web 服务 器 ， 

， 以 此 来 构建 一 个 健壮 的 应 用 。 


普通 的 for 4 





EE 命名 为 stock3.py. Ifi 














3.x F 








, 并 描 














述 月 


























VM 


自动 生成 




















RI o 


X. AG 




















本 ， 查 询 汇率 。 





图 





的 方式 。 下 面 是 


1 K: http://chart.yahoo.com/t?s=GOOG 
5 K: http://chart.yahoo.com/v?s=GOOG 


A 


1 
大 图 : 





1 K://chart.yahoo.com/b?s=GOOG 
5 K: http://chart.yahoo.com/w?s=GOOG 


年 : http://chart.yahoo.com/c/bb/m/GOOG 


一 些 示 例 URL， 可 以 


到 的 方法 。 
http:// gummy-stuff.org/forex.htm, 





盾 环 ,并 手动 解析 数据 。 


T 





o 


quote.yahoo.com, Hj up 




















可 以 定期 





[Toolbox 部 分 的 Download Data 链接 中 抓 


令 。 完 整 的 列表 可 以 访问 http: 
的 数据 点 ， 











并 将 其 集成 到 
































HT 
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ichar.finance. yahoo.com 之 间 轮 换 ， 所 以 要 使 
人 允许 


第 2 部 分 Web 开发 


3 个 月 : http://chart.yahoo.com/c/3m/GOOG 
6 个 月 : http://chart.yahoo.com/c/6m/GOOG 
1 年 : http://chart.yahoo.com/c/1y/GOOG 
两 年 : http://chart.yahoo.com/c/2y/GOOG 
5 年 : http://chart.yahoo.com/c/5y/GOOG 





Hr 





年 : 





最 大 时 间 : http;//chart.yahoo.com/c/my/GOOG 
与 练习 13-9 的 健壮 性 类 似 ， 域 名 会 在 chart.yahoo.com、ichart.yahoo.com 和 


















































pA 
ET 











JP IE UBER BAE 











图 。 同 时 提供 


H 














面 。 提 示 : webbrowser 模块 会 有 帮助 。 


13-14 ”历史 数据 。ichart.financial.yahoo.com 还 提 





在 浏览 器 中 访问 的 功 


所 有 这 些 来 检查 数据 。 创 建 一 个 应 用 





au 











直接 显示 股票 





图 页 











He» 









































了 解 其 工作 方式 ， 并 创建 一 个 应 用 ， 























供 历史 价格 查询 。 使 用 下 面 这 个 示例 的 URL 
于 查询 股票 历史 价格 : http//chart.yahoo. 





com/table. csv?s=GOOG&a =06&b=128&c=2006&d=10&e=2&f=2007 。 


Twitter 


13-15 


13-16 
13-17 


13-18 





7 


























Twitter 服务 。 
一 些 限制 。 








己 的 语言 描述 Twitter 月 





R 务 。 























介绍 什么 是 








文 ， 并 指出 推 文 的 














Twitter 库 。 描 述 Twython 和 Tweepy 这 两 个 Python 库 的 异同 点 。 


Twitter 库 。 了 解 其 他 可 以 访问 Twitter API 的 Python 库 。 这 些 库 与 本 章 


有 什么 





区 别 与 联系 ? 





























到 的 库 








Twitter 库 。 如 果 既 不 喜欢 Twython， 也 不 喜欢 Tweepy Python 库 。 那 么 自己 从 头 写 





一 个 与 Twitter 交互 的 安全 




















下 面 的 练习 需要 改进 本 章 的 twapi.py 示例 。 


13-19 


13-20 


13-21 


13-22 
13-23 


用 户 查询 。 添 加 新 功能 来 查询 用 户 在 Twitter 界 




















Hl] 




















上 的 名 称 。 并 返 































































































RESTful 的 库 。 可 以 从 https://dev.twitter.com/docs 开始 。 





回 对 应 的 ID. 


















































注意 , 有 些 用 户 的 界面 名 称 就 是 整数 ， 所 以 要 确保 允许 用 户 输入 这 些 数字 作为 潜 
在 的 界面 名 称 ， 使 用 ID 获取 用 户 最 新 的 推 文 。 

发 布 推 文 。 改 进 搜索 功能 ， 不 仅 让 用 户 搜索 推 文 ， 还 可 以 让 其 转发 选择 的 推 文 。 
可 以 提供 命令 行 、Web 或 GUI 来 支持 这 个 功能 。 

删除 推 文 。 与 练习 13-20 类 似 ， 让 用 户 可 以 删除 自己 发 布 的 推 文 。 注 意 ， 这 只 是 
从 Twitter 删除 推 文 ， 而 推 文 的 内 容 可 能 已 经 扩散 到 其 他 地 方 了 。 




















关注 。 添 加 查看 | 


























] 户 关注 者 (粉丝 ) ID 以 及 被 关注 者 ID 的 功能 。 





Twitter E. [8] twapi.py 添加 对 不 同 Python/Twitter 客户 端 库 的 文 持 。 例 如 ， 可 以 
尝试 支持 python-twitter， 该 库 参 见 http://code.google.com/p/python-twitter， 其 他 








库 可 以 在 http://dev.twitter.com/docs/twitter-libraries#python 中 找到 。 


13-24 


13-25 


13-26 





但 如 果 需 要 编写 一 个 应 用 来 帮助 月 


能 获得 access token 和 secret token， 需 要 支持 OAuth 的 完整 流程 。 
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编辑 个 人 资料 。 证 用 户 可 以 更 新 自己 的 资料 ， 以 及 上 传 新 的 头像 。 选 做 题 : 

















的 支持 。 











直接 消息 。 支 持 直接 消息 (Direct Message)， 将 这 些 消 ， 
已 接收 的 DM 列表 ， 并 可 以 

















当前 已 发 送 的 DM 列表 、 


在 twapi.py 示例 中 , 能 够 检测 并 修改 Twitter 流 ， 


用 户 更 新 个 人 资料 的 颜色 和 背景 图 片 。 
计数 。user_timeline() 这 个 


返回 用 户 时 间 线 上 最 新 的 20 条 推 文 。 向 twapi.py 添加 对 count 和 其 














551 


允许 


Twitter 函数 还 支持 count 变量 。 默 认 情 况 下 ，Twitter 





























因为 应 


















































最 后 儿 个 练习 需要 花 点 时 间 ， 





HP AEH 

















lin 




















息 发 送 给 指定 用 户 ， 
| 除 DM. 








他 可 选 参数 


获取 


有 所 有 必需 的 授权 信息 。 
文 就 是 另外 一 回 事 了 。 在 这 种 情况 下 ， 为 了 


因为 必须 学 习 OAuth 的 内 容 。 可 以 先 阅 读 这 两 个 文档 : 





https://dev.twitter.com/docs/auth/oauth 和 https://dev.twitter.com/docs/auth/moving-from-basic- 


auth-to-oauth. 


13-27 


13-28 


13-29 其 他 Web 服务 。 阅 读 关 于 Google 的 Prediction 
/apis/predict)， 尝 试 学 习 其 中 的 “Hello World” 教 程 。 
X 《自己 或 别人 的 都 可 以 )。 创 建 并 训练 预测 模型 ， 判 
后 ， 使 用 工具 以 相同 的 


X 










































































因此 很 快 就 会 丢失 以 前 的 推 文 。 构 建 一 个 Twitter 归档 服务 ， 保 存 已 注册 
推 文 。 如 果 在 网 上 搜索 “twitter archive" 2k “twitter research tools”, 会 得 到 
内 容 。 和 希望 通过 这 个 练习 ， 能 够 在 读者 ， 


短 链 接 、Feed 轮 询 。 为 个 人 或 工作 博客 创建 周期 扫描 器 (RSS 或 其 他 )， 





EX, 








推 文 归档 。 创 建 一 个 Twitter 归档 服务 。 由 于 Twitter 只 保存 最 近 的 200 条 推 

















诞生 下 一 代 Twitter 分 析 工 具 ! 








TP H 


很 多 





当 发 布 




















新 博客 时 ， 自 动 发 布 一 条 短 链接 以 及 该 博客 标题 的 前 入 个 单词 。 























的 模型 ， 来 扫描 不 同 的 # 

















断 一 条 推 文 是 积极 的 、 消 极 的 ， 还 是 中 性 的 。 
方式 判断 新 的 推 文 。 为 了 完成 这 个 练习 ， 


Chttp:Wcode.google.comy/apis/console) 上 创建 
Google Storage。 如 果 不 想 创建 Google 账号 ， 也 可 以 使 











上 村 


当 训练 完成 





API (http://code.google.com 





























FF 以后， 开发 一 个 自己 








需要 在 Google 的 API 控制 台 























个 项 目 





pa 
ri 
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] Google Prediction 和 
j 其 他 类 似 的 API. 
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CHAPTER 
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第 14 章 文本 处 理 


作为 开发 者 ， 我 更 愿意 编辑 纯 文 本 。 但 XML 不 算 纯 文本 。 








Wesley Chun，2009 年 7 月 
(在 OSCON 会 议 上 说 过 的 话 ) 

ARBAB: 

Sa hal (CSV); 

JSON; 

可 扩展 标记 语言 ; 

相关 模块 。 


554 第 3 部 分 补充 /实验 章节 




















无 论 创 建 什 么 类 型 的 应 用 ， 最 终 都 需要 处 理 人 类 可 读 的 数据 ， 这 类 数据 一 般 都 是 文本 。 
Python 标准 库 含 有 3 个 文本 处 理 模块 和 包 ， 它 们 可 以 完成 这 个 任务 : csv、json、xml。 本 章 
将 依次 介绍 它们 。 

在 本 章 末尾 ， 我 们 将 XML 与 第 2 章 中 介绍 的 其 他 客户 端 一 服务 器 的 知识 结合 起 来 ， 展 
示 如 何 使 用 Python 创建 XML-RPC 服务 。 由 于 这 种 编程 方式 不 考虑 文本 处 理 ， 因 此 无 需 自行 
处 理 XML， 只 用 进行 一 些 数 据 格 式 转换 。 读 者 可 以 将 最 后 一 节 作 为 附加 材料 。 


14.1 逗号 分 隔 值 (CSV) 

















































































































本 节 将 介绍 逗号 分 隔 值 (Comma-Separated Value，CSV)。 首 先 简要 介绍 CSV， 接 着 通 
过 示例 介绍 如 何 使 用 Python 读 写 CSV 文件 ， 最 后 回顾 前 面 的 一 个 例子 。 


14.1.1 CSV 简介 


与 专 有 的 二 进 制 文件 格式 截然 不 同 ，CSV 通常 用 于 在 电子 表格 软件 和 纯 文本 之 间 交 互 数 
Hho Kink, CSV 都 不 算是 一 个 真正 的 结构 化 数据 ，CSYV 文件 内 容 仅 仅 是 一 些 用 逗号 分 隔 的 
原始 字符 串 值 。 不 同 的 CSV 格式 有 一 些微 妙 的 区 别 ， 但 总 体 上 ， 这 些 区 别 影响 不 大 。 大 多 数 
情况 下 ， 甚 至 都 不 需要 用 到 专门 针对 CSV 的 模块 。 

听 起 来 好 像 很 容易 解析 CSV 文件 , 是 吗 ? 可 能 不 假 思 索 地 认为 只 须 调 用 strsplit(,) 即 可 。 
但 不 能 这 样 做 ， 因 为 有 些 字段 值 可 能 会 含有 舱 套 的 逗号 ， 因 此 需要 专门 用 于 解析 和 生成 CSV 
的 库 ， 如 Python 的 csv 模块 。 

来 看 一 个 简短 的 例子 ， 该 示例 获取 数据 ， 以 CSV 格式 输出 到 文件 中 ,接着 将 同样 的 数据 
读 回 。 后 面 还 会 处 理 单个 字段 中 就 含有 逗号 的 情形 ， 来 让 示例 稍微 复杂 一 些 。 示 例 14-1 展示 
了 csvex.py， 该 脚本 接受 三 元 组 ， 将 对 应 的 记录 作为 CSV 文件 写 到 磁盘 上 ， 接 着 读 取 并 解析 
刚刚 写 入 的 CSV 数据 。 

















































































































































































































































































































示例 14-1 CSV AHI, FA Python 2 和 Python 3 (csvex.py) 
这 个 简单 的 脚本 演示 了 将 数据 转 成 csv 格式 写 出 ， 并 再 次 读 取 。 
































#!/usr/bin/env python 


l 

2 

3 import csv 

4 from distutils.log import warn as printf 

5 

6 DATA = (人 

7 (9, 'Web Clients and Servers', 'base64, urllib'), 

8 (10, 'Web Programming: CGI & WSGI', 'cgi, time, wsgiref'), 
9 (13, 'Web Services', 'urllib, twython'), 

10 ) 


N= 


printf('*** WRITING CSV DATA') 
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13 f = open('bookdata.csv', 'w') 
14 writer = csv.writer(f) 
15 for record in DATA: 
16 writer.writerow(record) 
17 f.closeQ 
18 
19 printf('*** REVIEW OF SAVED DATA') 
20 f = open('bookdata.csv', 'r') 
21 reader = csv.reader(f) 
22 for chap, title, modpkgs in reader: 
23 printf('Chapter %s: %r (featuring %s)' % ( 
24 chap, title, modpkgs)) 
25 f.closeQ 
接 下 来 是 另 一 个 兼容 Python 2 和 Python 3 的 示例 脚本 。 无 论 使 用 Python 2 还 是 Python 3, 


最 终 输出 完全 相同 。 


和 阔 数 只 在 单个 字符 串 作 为 参数 的 情况 下 相同 , 使 
据 集 的 导入 语句 。 该 数据 集 是 三 元 组 ， 每 个 元 素 占用 一 列 ， 包 括 章 号 、 章 名 、 该 章 代码 示例 











$ python csvex.py 
*** WRITING CSV DATA 
*** REVIEW OF SAVED DATA 








(featuring base64, urllib) 
(featuring cgi, time, wsgiref) 


Chapter 9: 'Web Clients and Servers' 

Chapter 10: 'Web Programming: CGI & WSGI' 

Chapter 13: 'Web Services' (featuring urllib, twython) 
zz ZX 一 乎 
逐 行 解释 


第 1 一 10 行 





首先 导入 csv 模块 以 及 distutils.log.warmnO0， 后 者 作为 print 语句 或 函数 的 代理 (print 语句 















































中 使 用 的 模块 和 包 。 


个 writer 对 象 。writer 提供 了 writerow(0) 方 法 ， 可 以 





第 12 一 17 AF 
这 6 行 的 意思 很 清楚 。 





csvwriter0 函 数 需要 一 个 打开 的 文件 《或 类 文件 ) 对 象 ， 返 加 





代理 后 可 以 消除 这 个 限制 )。 紧 接着 是 数 





























数据 。 写 入 完成 后 ， 关 闭 该 文件 。 


第 19—25 fT 


JOR AEST FP WSC FE REA 5 AGES BY 

















YEXX— HBA), csv.readerO ALG csv.writerO 4H Kz, | 


3k PSEA R, 可 以 读 取 该 








对 象 并 解析 为 CSV 数据 的 每 一 行 。 与 csvwriter0 类 似 ，csvxreader0 也 使 用 一 个 已 打开 文件 的 





句柄 ， 返 回 一 个 reader 对 象 。 当 逐 行 迭代 数据 时 ，CSYV 数据 会 自 
行 )。 


类 ， 


作为 键 )， 接 着 将 字典 字段 写 入 CSV 文件 ! 





逐 行 显示 数据 ， 处 理 完 后 就 关闭 文件 。 





除了 csvreader0 和 csv.writer0 之 外 ，csv 模块 还 提供 

















动 解析 并 返回 给 用 户 ( 第 22 








了 csvDictReader 类 和 csv.DictWriter 
































(首先 查找 是 否 使 用 


用 于 将 CSV 数据 读 进 字 上 典 ! 
































给 定 字段 名 ， 如 果 没 有 ， 就 是 











第 一 行 
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14.1.2 再 论 股 票 投资 组 合 示例 


在 介绍 另 一 个 文本 处 理 格式 之 前 , 先 来 看 看 这 个 示例 。 回顾 第 13 章 介 绍 的 股票 投资 组 合 
脚本 ， 即 stokc.py。 这 里 不 用 strsplit(,)， 而 是 在 应 用 中 使 用 csv 模块 。 

另外 ， 这 里 不 会 列 出 所 有 代码 ， 大 部 分 代码 都 与 stock.py 相同 ， 所 以 只 关注 其 中 有 改动 的 部 
分 .下 面 是 Python 2 版 本 的 完整 的 stock.py 脚本 (可 以 随时 回顾 第 13 章 查 看 有 关 代码 的 逐 行 解释 )。 


#!/usr/bin/env python 























H 







































































































































































from time import ctime 

from urllib2 import urlopen 

TICKs = ('yhoo', 'dell', 'cost', 'adbe', 'intc') 

URL = 'http://quote.yahoo.com/d/quotes.csv?s-$s&f-sllclp2' 


print '\nPrices quoted as of: $s PDT\n' $ ctime() 


print 'TICKER', 'PRICE', 'CHANGE', '$AGE' 
print '------ DM aO a ae iy, WSS 
u = urlopen(URL $ ','.join(TICKs)) 


for row in u: 
tick, price, chg, per = row.split(',') 
print tick, '$.2f' $ float(price), chg, per, 


u.close() 


修改 版 与 原版 的 输出 内 容 相似 。 作 为 比较 ， 下 面 是 其 中 一 个 输出 结果 。 


Prices quoted as of: Sat Oct 29 02:06:24 2011 PDT 




















TICKER PRICE CHANGE $AGE 


"YHOO" 16.56 -0.07 "-0.42$" 
"DELL" 16.31 -0.01 "-0.06%" 
"COST" 84.93 -0.29 "-0.34$" 
"ADBE" 29.02 40.68 "42.40$" 
"INTC" 24.98 -0.15 "-0.60%" 

















所 要 做 的 就 是 将 stock.py 中 的 代码 复制 到 名 为 stockesv.py 新 脚本 中 ， 接 着 进行 相应 的 更 
PE. 使 用 csv 模块 。 现 在 来 看 看 不 同 点 ， 重 点 讨论 urlopenO 调 用 之 后 的 代码 。 打 开 文 件 之 后 ， 
就 将 文件 传递 给 csvreader0， 如 下 所 示 。 


reader = csv.reader(u) 





















































ks 























for tick, price, chg, pct in reader: 
print tick.ljust(7), ('$.2f' % round(float (price), 2)).rjust(6), \ 
chg.rjust (6), pct.rstrip().rjust(6) 


u.close() 
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for 循环 的 大 部 分 都 相同 , 除了 无 须 读 取 整 行 后 用 逗号 分 隔 。 现 在 使 用 csv 模块 解析 数据 ， 
让 用 户 用 循环 变量 来 指定 目标 字段 的 名 称 。 注 意 ， 输 出 结果 虽然 相似 ， 但 并 不 是 精确 匹配 。 









































读者 能 找到 其 中 的 不 同 之 处 吗 〈 除 了 时 间 惟 ) ? 下 面 是 输出 结果 。 


Prices quoted as of: Sun 


TICKER PRICE CHANGE $AGE 


INTC 24.98 -0.15 -0.60$ 




































































Oct 30 23:19:04 2011 PDT 





























这 里 的 区 别 很 小 。 有 些 字段 在 str.split0 版 本 中 用 引号 括 起 来 ， 但 csv 版 本 中 没有 。 为 什 
么 会 这 样 ? 回忆 第 13 章 的 内 容 ， 有些 值 返回 时 带 有 引号 , 在 那 一 章 的 末尾 ,还 有 一 个 练习 要 











求 手动 去 除 额外 的 引号 。 











使 用 csv 模块 处 理 CSV 数据 时 就 不 成 问题 了 ，csv 模块 会 查找 和 擦 除 从 Yahoo! 服 务 器 






























































获取 数据 时 带 来 的 引号 。 下 面 这 段 代 码 确 认 这 些 数据 中 含有 额外 的 引号 。 


>>> from urllib2 import urlopen 




















>>> URL = 'http://quote.yahoo.com/d/quotes.csv?s-goog&f-sllclp2' 


>>> u = urlopen(URL, 'r' 
>>> line = u.read() 
>>> u.close() 


>>> line 


) 


'"GOOG", 598.67,+12.36,"+2.11%"\r\n' 


引号 是 额外 的 麻烦 ， 但 通过 csv 模块 ， 开 发 者 就 无 须 处 理 这 个 问题 了 。 由 于 无 须 额 外 的 

















字符 串 处 理 流程 ， 代 码 也 变 得 更 力 
































Ix. 




















为 了 改善 数据 管理 ， 如 果 数 据 使 用 更 具有 层次 化 的 方式 表达 就 更 好 了 。 例 如 ， 如 果 每 一 














行 作为 单个 对 象 ， 而 price, chang 
































e. percentage 作为 这 个 对 象 的 属性 。 由 于 每 一 行 CSV 含有 























4 个 值 , 若 不 使 用 第 一 个 值 作为 主键 或 其 他 类 似 的 约定 , 此 时 就 没有 “主键 ”这 种 情况 下 JSON 

















就 可 能 更 适合 这 个 应 用 。 


14.2 JSON 














从 JavaScript 对 象 表示 法 〈 或 JSON) 这 个 名 字 就 可 以 看 出 ， 它 来 自 于 JavaScript 领域 ， 











JSON 是 JavsScript 的 子 集 ， 专 门 月 





日 于 指定 结构 化 的 数据 。 其 基于 ECMA-262 标准 ,与 本 章 最 





后 一 节 介 绍 的 XML 相 比 ，JSON 是 轻 量 级 的 数据 交换 方式 。JSON 是 以 人 类 更 易 读 的 方式 传 























输 结构 化 数据 。 关 于 ISON 的 更 多 信息 可 以 访问 http://json.org。 
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从 Python 2.6 开始 ， 通 过 标准 库 json 模块 正式 支持 了 JSON。 其 基本 上 就 是 外 部 
simplejson 库 的 集成 版 ,其 开发 者 还 反 向 兼容 了 2.5 版 本 。 更 多 信息 可 访问 http://github.com/ 
simplejson/simplejson。 

Fb, json (LAR simplejson) 提供 了 与 pickle 和 marshal 类 似 的 接口 ， 即 dumpO/load0) 
和 dumpsO/loads0。 除 了 基本 参数 外 ， 这 些 函 数 还 包括 许多 仅 用 于 ISON 的 选项 。 模 块 还 包 
括 encoder 类 和 decoder 类 ， 用 户 既 可 以 继承 ， 也 可 以 直接 使 用 。 

JSON 对 象 非常 像 Python 的 字典 ， 如 下 所 示 ， 使 用 字典 将 数据 转 成 JSON 对 象 ， 接 着 再 
转换 回来 。 


>>> dict(zip('abcde', range(5))) 
tarang, 'd'ri12, 'B'sd, "ets 44 "dn BH} 
>>> json.dumps (dict (zip('abcde', range(5)))) 
tna": 0, MGs 2, "ps s SAM "o". 4, "gd": Sq 
>>> json.loads(json.dumps (dict (zip('abcde', range(5))))) 
fotat: 0, u'c'i 2, TL u'e': 4, u'd'i 3 
注意 , ISON 只 理解 Unicode 字符 串 ， 所 以 在 转换 回 Python 字典 时 ， 上 面 的 例子 (Python 
2 版 本 ) 中 字典 的 键 转 成 Unicode FIFE o WIRE Python 3 中 运行 这 一 行 代码 , 就 没有 Unicode 
字符 串 前 导 操作 符 ( 即 左 引 号 前 面 的 “u” 指 示 符 )。 
>>> json.loads(json.dumps (dict (zip('abcde', range(5))))) 
Harc (0, *oti 2; Shs dy vets at 23} 
Python 字典 转化 成 了 JSON 对 象 。 与 之 类 似 , Python 列表 或 元 组 也 可 转 成 对 应 的 JSON 
数组 。 
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>>> list('abcde') 

[atp “Ubi. eg tts tet] 

>>> json.dumps (list ('abcde')) 

Hitan "bt, "oT, mam; wet 

>>> json.loads (json.dumps (list ('abcde"') ) ) 
[u'a', u'b', u'c', u'd', uren] 

32» ER ['a', 'b', fot, 'd', 'e'] an Python 3 
>>> json.loads(json.dumps (range (5))) 

[0, 1, 2, 3, 4] 


Python 和 JSON 数据 类 型 与 值 之 间 有 什么 区 别 呢 ? K 14-1 列 出 了 一 些 关键 区 别 。 

x 14-1 没有 列 出 另 一 个 细微 的 区 别 ， 即 ISON 不 使 用 单 引 号 ， 每 个 字符 串 都 使 用 双 引 
号 分 隔 。 另 外 ， 也 没有 Python 程序 员 偶尔 为 了 方便 ， 在 每 个 序列 或 映射 元 素 的 最 后 添加 的 
额外 的 尾随 逗号 。 

为 了 可 视 化 其 中 一 些 区 别 , 示 例 14-2 显示 了 dict2json.py, 这 个 脚本 兼容 Python fll Python 
3， 它 用 4 种 方法 转 储 字典 的 内 容 ， 两 次 作为 Python 字典 ， 两 次 作为 JSON 对 象 。 
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表 14-1 JSON 和 Python 类 型 之 间 的 区 别 


























J SON Python 2 Python 3 
object dict dict 
array list tuple list tuple 
string unicode str 

number (int) int, long int 

number (real) float float 
true True True 
false False False 
null None None 








示例 14-2 Python 字典 转 ] SON 示例 (dict2json.py) 
该 脚本 将 Python 字典 转 成 JSON， 并 使 用 多 种 格式 显示 。 









































#!/usr/bin/env python 


1 

2 

3 from distutils.log import warn as printf 

4 from json import dumps 

5 from pprint import pprint 

6 

7  BOOKs = { 

8 '0132269937': { 

9 'title': 'Core Python Programming', 
10 'edition': 2, 

ll 'year': 2007, 

12 }, 

13 '0132356139': { 

14 'title': "Python Web Development with Django’, 
15 'authors': ['Jeff Forcier', 'Paul Bissex', 'Wesley Chun'], 
16 'year': 2009, 

17 ), 

18 '0137143419': ( 

19 'title': 'Python Fundamentals', 

20 'year': 2009, 

21 > 

22 +} 

23 


24 printf('*** RAW DICT ***') 
25  printf(BOOKs) 


27 printf('Xn*** PRETTY PRINTED DICT ***') 
28 pprint(BOOKs) 


30 printfC'\n*** RAW JSON ***') 
31 printf(dumps (BOOKs) ) 


33 printfC'\n*** PRETTY PRINTED JSON ***') 
34 printf(dumps(BOOKs, indent-4)) 
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逐 行 解释 

第 1~5 行 

首先 导入 这 里 所 需 的 三 个 函数 : 1)〉distutils.log.warn()， 用 来 应 对 Python 2 中 print 语句 
和 Python 3 中 print0 函 数 引 起 的 差异 ; 2) json.dumps()， 用 来 返回 一 个 表示 Python 对 象 的 字 
符 串 ; 3) pprint.pprint0， 用 来 美观 地 输出 Python 对 象 。 

第 7 一 22 行 

BOOKs 数据 结构 是 一 个 Python 字典 ， 表 示 通 过 ISBN 标识 的 书籍 。 每 本 书 还 含有 额外 
o 如 书 名 、 作 者 、 出 版 年 份 等 。 这 里 没有 使 用 列表 这 样 “ 平 坦 ” 的 数据 结构 。 而 是 使 
用 字典 ， 因 为 字典 可 以 构建 具有 结构 化 层次 的 属性 。 注 意 ， 在 等 价 的 ISON 表示 方法 中 ， 会 
移 除 所 有 额外 的 逗号 。 

第 24~34 行 

脚本 剩 下 的 内 容 用 于 显示 输出 结果 。 第 一 个 示例 是 仅仅 转 储 的 Python 字典 , 没有 什么 特 
别 内 容 。 注 意 ， 这 里 同样 移 除 了 额外 的 有 逗号。 这样 人 们 在 代码 中 使 用 起 来 就 更 加 方便 。 第 二 
个 示例 是 相同 的 Python 字典 ， 但 使 用 更 美观 的 方式 输出 。 

最 后 两 个 是 JSON 格式 的 输出 。 第 一 个 是 转换 后 普通 的 ISON 转 储 。 第 二 个 是 使 用 
json.dumpsO 内 置 的 美观 的 输出 方式 。 只 须 传递 缩 进 级 别 就 可 以 启用 这 个 特性 。 

在 Python 2 或 3 中 执行 这 个 脚本 会 得 到 以 下 输出 。 


$ python dict2json.py 
*** RAW DICT *** 
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7 











{'0132269937': ('edition': 2, 'year': 2007, 'title': 'Core Python 
Programming'), '0137143419': ('year': 2009, 'title': 'Python 
Fundamentals'), '0132356139': {'authors': ['Jeff Forcier', 
'Paul Bissex', 'Wesley Chun'], 'year': 2009, 'title': 'Python 


Web Development with Django'}} 


*** PRETTY PRINTED DICT *** 


('0132269937': {'edition': 2, 

'title': 'Core Python Programming', 
'year': 2007}, 

'0132356139': ('authors': ['Jeff Forcier', 'Paul Bissex', 'Wesley 

Chun'], 

'title': 'Python Web Development with Django', 
'year': 2009}, 

'0137143419': {'title': 'Python Fundamentals', 'year': 2009}} 


*** RAW JSON *** 
("0132269937": {"edition": 2, "year": 2007, "title": "Core Python 
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Programming"}, "0137143419": {"year": 2009, "title": "Python 
Fundamentals"), "0132356139": {"authors": ["Jeff Forcier", 
"Paul Bissex", "Wesley Chun"], "year": 2009, "title": "Python 


Web Development with Django"}} 


*** PRETTY PRINTED JSON *** 
{ 


"0132269937": ( 
"edition": 2, 
"year": 2007, 
"title": "Core Python Programming" 


}s 
"0137143419": ( 





"year": 2009, 

"title": "Python Fundamentals" 
}, 
"0132356139": { 

"authors": [ 


"Jeff Forcier", 
"Paul Bissex", 
"Wesley Chun" 
l; 
"year": 2009, 
"title": "Python Web Development with Django" 


} 








这 个 示例 演示 了 从 字典 转换 为 JSON 的 方法 。 也 可 以 将 数据 从 列表 或 元 组 转 成 JSON 数组 。 
json 模块 还 可 以 为 其 他 Python 数据 类 型 提供 编码 和 解码 (decoding) 类 ， 用 于 与 JSON 互 转 。 

















但 这 里 不 会 一 一 介绍 这 些 内 容 ，JSON 的 内 容 非常 广 ， 本 节 作 为 入 门 简介 无 法 再 
































TESIR 























现在 来 看 文本 格式 一 一 XML， 人 们 很 少 意 识 到 XML 仅仅 是 


14.3 ”可 扩展 标记 语言 











纯 文本 格式 ”。 


本 章 要 介绍 的 数据 处 理 方面 的 第 三 个 主题 是 可 扩展 标记 语言 (Extensible Markup 














Language，XML)。 与 前 面 介绍 CSV 的 方式 相同 ， 这 里 首先 简要 介绍 XML， 接 着 通过 

































































个 教程 介绍 如 何 使 用 Python 处 理 XML 数据 。 在 此 之 后 , 处理 
际 数据 。 






































”原文 语 出 “看 不 见 的 大 猩猩 ”心理 学 实验 。 一 一 译 者 注 























来 自 Google News 服务 的 实 
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14.3.1 XML 简介 


本 章 最 后 一 节 将 介绍 XML， 这 是 一 个 较 老 的 结构 化 数据 格式 ， 声 称 是 “ 纯 文 本 ”格式 ， 
来 表示 结构 化 的 数据 。 尽管 XML 数据 是 纯 文 本 , 但 有 充分 的 理由 认为 XML 不 是 人 类 可 读 
的 。 如 果 没 有 解析 器 的 帮助 ，XML 几乎 难以 辨认 。 但 XML EGA, HHE JSON 应 用 得 更 
广 。 当 今 几 乎 每 种 编程 语言 都 有 XML 解析 器 。 
XML 是 标准 通用 标记 语言 〈Standard Generalized Markup Language, SGML) 的 限制 版 ， 
其 本 身 是 ISO 标准 (ISO 8879)。XML 最初 诞生 于 1996 年 ， 万 维 网 联盟 CW3C) 组 建 了 一 个 
团队 设计 XML。 第 1 版 XML 规范 发 布 于 1998 年 ， 最 近 一 次 更 新 于 2008 年 "。 可 以 认为 XML 


是 SGML 的 子 集 。 还 可 以 认为 HTML 是 SGML 更 小 的 子 集 。 
14.3.2 Python 和 XML 


Python 最 初 在 1.5 版 时 通过 xmllib 模块 支持 XML。 从 那 时 起 ，xmllib 最 终 融 入 到 xml 
包 中 ，xml 包 提 供 了 不 同方 式 来 解析 和 构建 XML 文档 。 

Python 同时 支持 文档 对 象 模型 DOM) 树 形 结构 和 基于 事件 的 简单 XMLAPI (Simple API for 
XML, SAX) 来 处 理 XML 文档 。 当 前 的 SAX 规范 是 2.0.1 版 ， 所 以 Python 中 通常 称 为 SAX2。 
DOM 标准 比较 老 , 几乎 与 XML 存在 的 时 间 一 样 长 .从 Python 2.0 开始 就 同时 文 持 SAX 和 DOM。 

SAX 是 流 接口 ， 意 味 着 文档 是 通过 连续 的 字 节 流 一 次 处 理 一 行 。 因 此 在 XML 文档 : 
不 能 回调 也 不 能 执行 随机 访问 。 从 这 一 点 可 以 推 新 ， 这 种 基于 事件 的 处 理 器 更 快 且 在 内 存 
作 方 面 更 有 效率 。 而 基于 树 形 结构 的 解析 器 将 整个 文档 放 在 内 存 中 ， 可 以 多 次 访问 。 

这 里 需要 提醒 一 下 ，xml 包 中 的 内 容 根据 版 本 不 同 有 所 差异 ， 但 至 少 有 一 个 兼容 SAX 的 
XML 解析 器 。 此 时 这 意味 着 用 户 需 要 手动 查找 并 下 载 第 三 方 模块 或 包 ， 以 满足 这 里 的 需要 。 
幸运 的 是 ,从 Python 2.3 开始 , 标准 库 中 自 带 了 Expat 流 解析 器 , 位 于 xml.parsers.expat 下 面 。 
Expat 诞生 于 SAX 之 前 ， 且 不 兼容 SAX。 但 可 以 使 用 Expat 创建 SAX 或 DOM 解析 器 。 
还 要 注意 ，Expat 的 执行 效率 很 快 。 因 为 Expat 不 进行 验证 ， 意 味 着 它 不 检查 标记 的 兼容 性 。 
可 以 推 想 ， 进 行 验证 的 解析 器 由 于 需要 额外 的 处 理 ， 因 此 速度 也 慢 一 些 。 

从 2.5 版 本 开始 ，Python 通过 额外 的 ElementTree 进一步 成 熟 的 支持 XML, ElementTree 
是 一 款 使 用 广泛 、 快 速 且 符合 Python 风格 的 XML 文档 解析 器 和 生成 器 ， 已 经 作为 
xml.etree.ElementTree 添加 到 标准 库 中 。 这 里 将 使 用 ElementTree 处 理 所 有 原始 的 XML 示例 (还 
会 稍微 用 到 xml.dom.minidom), 并 显示 使 用 Python 的 XML-RPC 支持 编写 客户 端 /服务 器 应 用 。 

在 示例 14-3 (dict2xml.py) 中 ， 使 用 Python 字典 存储 结构 化 的 数据 ， 使 用 ElementTree 
构建 正确 的 XML 文档， 以 此 来 表示 这 个 数据 结构 ， 使 用 xml.dom.minidom 来 美观 地 输出 。 
最 后 ， 使 用 多 种 ElementTree 友 代 器 解析 并 显示 其 中 相关 的 内 容 。 
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”已 核实 ， 依 然 是 最 新 版 本 ， 这 几 年 没有 更 新 。 一 一 译 者 注 
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示例 14-3 将 Python 字典 转换 成 XML (dict2xml.py) 
这 个 Python 2 脚本 将 字典 转换 成 XML， 并 使 用 多 种 格式 显示 出 来 。 















































#!/usr/bin/env python 


1 

2 

3 from xml.etree.ElementTree import Element, SubElement, tostring 
4 from xml.dom.minidom import parseString 

5 

6 BOOKs = ( 

7 '0132269937': { 

8 'title': 'Core Python Programming', 

9 'edition': 2, 

10 'year': 2006, 

11 m 

12 '0132356139': { 

13 'title': 'Python Web Development with Django', 
14 'authors': 'Jeff Forcier:Paul Bissex:Wesley Chun', 
15 'year': 2009, 

16 }, 

17 '0137143419': { 

18 'title': "Python Fundamentals’, 

19 'year': 2009, 

20 , 

21 } 

22 


23 books = Element('books') 
24 for isbn, info in BOOKs.iteritems(): 


25 book = SubElement(books, 'book') 

26 info.setdefault('authors', 'Wesley Chun') 

27 info.setdefault('edition', 1) 

28 for key, val in info.iteritems(): 

29 SubElement(book, key).text = ', '.join(str(val) .split(':')) 
30 


31 xml = tostring(books) 
32 print '*** RAW XML ***"' 
33 print xml 


35 print '\n*** PRETTY-PRINTED XML ***' 
36 dom - parseString(xml) 
37 print dom.toprettyxml (' ') 


39 print '*** FLAT STRUCTURE ***' 
40 for elmt in books.getiterator(): 
41 print elmt.tag, '-', elmt.text 


43 print '\n*** TITLES ONLY ***' 
44 for book in books. findal1('.//title'): 
45 print book.text 


运行 该 脚本 ， 同 时 该 脚本 也 能 很 容易 移植 到 Python 3 中 ， 结 果 如 下 所 示 。 


$ dict2xml.py 
大 大 大 RAW XML 大 大 大 
<books><book><edition>2</edition><authors>Wesley Chun</ 
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authors><year>2006</year><title>Core Python Programming</title></ 
book><book><edition>1</edition><authors>Wesley Chun</ 
authors><year>2009</year><title>Python Fundamentals</title></ 
book><book><edition>1</edition><authors>Jeff Forcier, Paul Bissex, 
Wesley Chun</authors><year>2009</year><title>Python Web Development 
with Django</title></book></books> 





*** PRETTY-PRINTED XML *** 
<?xml version="1.0" ?> 
<books> 
<book> 
<edition> 
2 
</edition> 
<authors> 
Wesley Chun 
</authors> 
<year> 
2006 
</year> 
<title> 
Core Python Programming 
</title> 
</book> 
<book> 
<edition> 
1 
</edition> 
<authors> 
Wesley Chun 
</authors> 
<year> 
2009 
</year> 
<title> 
Python Fundamentals 
</title> 
</book> 
<book> 
<edition> 
1 
</edition> 
<authors> 
Jeff Forcier, Paul Bissex, Wesley Chun 
</authors> 


«year» 
2009 
</year> 


<title> 
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Python Web Development with Django 


«/title» 
</book> 
</books> 


*** FLAT STRUCTURE *** 

books - None 

book - None 

edition - 2 

authors - Wesley Chun 

year - 2006 

title - Core Python Programming 
book - None 

edition - 1 

authors - Wesley Chun 

year - 2009 

title - Python Fundamentals 
book - None 

edition - 1 

authors - Jeff Forcier, 
year - 2009 

title - Python Web Development with Django 


Paul Bissex, 





*** TITLES ONLY *** 

Core Python Programming 

Python Fundamentals 

Python Web Development with Django 


逐 行 解释 
第 1 一 21 行 
该 脚本 的 前 几 行 与 前 一 节 介 2 























Python 2 版 本 的 解决 方案 。 





的 dict2json.py 非常 相似 。 改 动 包 括 
minidom。 读 者 知道 如 何 让 代码 同时 在 Python 2 和 3 中 工作 ， 所 以 这 日 


Wesley Chun 


导入 ElementTree 和 
进行 了 简化 ， 只 针对 












































tt 











最 后 ， 最 微妙 的 区 别 在 于 “author” 字 段 不 是 使 














号 分 隔 的 字符 串 。 这 个 改动 并 不 是 必需 的 ， 然 而 读者 依然 可 以 继续 使 用 列表 。 














类 似 dict2json.py 中 的 列表 ， 而 是 单个 



































做 这 个 改动 是 为 了 简化 数据 处 理 。 关 键 点 2 

















是 很 明显 EAL J 








第 29 





行 。 另 一 个 区 别 是 在 











JSON 示例 中 ， 如 果 没 有 提供 ， 就 不 会 设置 默认 作者 名 。 这 很 容易 通过 冒号 来 检查 ， 如 果 数 


据 值 是 字符 串 或 列表 则 无 须 额外 的 检查 。 
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这 里 是 脚本 正式 开始 工作 的 地 方 。 首 先 创 建 顶 层 对 象 ， 即 books， 接 着 将 所 有 其 他 内 





容 添加 到 该 节点 下 。 
供 作 者 和 版 本 ， 则 使 用 提供 的 默认 值 。 接 着 遍历 所 有 键 值 对 ， 将 这 些 内 容 作 为 其 他 子 节点 
添加 到 每 个 book 中 。 
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最 后 一 段 代 码 的 作用 是 将 数据 用 其 他 几 种 格式 转 储 ， 包 括 原 始 XML、 美 观 输出 
遍历 所 有 节点 作为 一 个 大 的 平坦 结构 。 最 后 ， 演 示 了 在 XML 文档 ' 




















简单 搜索 。 


(用 到 MiniDOM), 








14.3.3 XML 实战 








前 面 展示 了 许多 关于 创建 和 解析 XML 文档 的 示例 ， 























所 以 来 看 男 






















































































大 多 数 应 用 会 使 用 后 面 一 种 方法 。 
一 个 简短 的 例子 ， 它 解析 数据 来 生成 有 用 的 信息 。 


对 于 每 一 本 书 ， 都 添加 一 个 book 子 节点 ， 如 果 上 面 的 原 字典 没有 提 


点 


B 的 x XML 


行 


在 示例 14-4 中 ，goognewsrss.py 从 Google News 服务 中 获取 “Top Stories” 源 (feed), 





并 提取 前 5 个 (默认 情况 下 ) 新 闻 故 事 的 标题 ， 作 为 实际 新 | 











AGERE TERM R' 





= 





goognewsrss.topnews() 是 一 个 生成 器 ， 因 为 其 中 含有 一 个 很 明显 的 yield 表达 式 。 这 意 意味 着 生 

















成 器 用 迭代 的 方式 生成 (title, link) 对 。 查 看 代码 , 确认 能 否 了 解 其 
里 没有 显示 出 




































































来 )。 在 示例 代码 后 面 会 解释 原因 。 


示例 14-4 ”解析 实际 的 XML Ft (goognewsrss.py) 








这 个 脚本 兼容 Python 2 和 3， 显 示 排 名 靠 前 的 新 闻 〈 默 认为 5 个 )， 


XO 06 —) OU RUIT.— 


$olourunu-co 


NN 
— © 


NN 
wN 











#!/usr/bin/env python 


try: 
from io import BytesIO as StringIO 
except ImportError: 
try: 
from cStringIO import StringIO 
except ImportError: 
from StringIO import StringIO 


try: 

from itertools import izip as zip 
except ImportError: 

pass 


try: 
from urllib2 import urlopen 
except ImportError: 
from urllib.request import urlopen 


from pprint import pprint 
from xml.etree import ElementTree 




















的 工作 方式 和 输出 结果 (这 








以 及 Google News 服务 中 对 应 的 链接 。 


24 g= 

25 f = StringIO(g.readO) 

26 g.close() 

27 tree - ElementTree.parse(f) 

28 f.closeQ 

29 

30 def topnews(count=5): 

31 pair = [None, None] 

32 for elmt in tree.getiterator(): 
33 if elmt.tag -- 'title': 

34 skip = 

35 if skip: 

36 continue 

37 pair[0] = elmt.text 

38 if elmt.tag == 'link': 

39 if skip: 

40 continue 

41 pair[1] = elmt.text 

42 if pair[0] and pair[1]: 
43 count -- 1 

44 yield(tuple(pair)) 
45 if not count: 

46 return 

47 pair = [None, None] 
48 

49 for news in topnews(): 

50 pprint(news) 


执行 代码 前 ， 要 确认 阅读 过 





Google News 的 服务 条 球 
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urlopen('http://news.google.com/news?topic=h&output=rss') 


elmt.text.startswith('Top Stories') 


(ToS ),& JL http://news.google. 





com/intl/en_us/terms_google_news.html. FLA i BH f fi H 





段 “本 服务 的 内 容 只 能 用 于 个 人 用 途 ( 即 非 商 业 用 途 )， 不 


创建 衍生 作品 ， 或 公开 显示 任何 内 容 。” 

















挡住 实际 的 输出 结果 ， 因 为 这 形 同 修改 内 容 。 
ea 




















A E 
新 

















HiX Google 服务 的 要 求 。 关 键 是 这 一 
能 复制 、 重 新 生成 、 变 更 、 修 改 、 


AGAR 








由 于 本 书 是 面向 公众 出 版 的 ， 这 意味 着 本 书 不 能 粘贴 示例 程序 执行 后 的 结果 ， 也 不 能 让 
但 读者 可 
es dS TUB. 注意， 由 于 这 














gE 


o 


以 私下 执行 程序 并 查看 结 


























是 实时 的 服务 ， 内 容 在 不 断 更 改 。 不 同时 间 运 
逐 行 解释 


第 1~22 行 
是 的 ， 有 些 纯粹 主义 者 会 发 现 这 




















的 代码 有 点 丑 ， 杂 

















这 个 程序 会 会 得 


导 到 不 同 的 结果 。 





杂乱 的 导入 语句 让 代码 难以 阅读 ， 这 一 点 














我 表示 赞同 。 但 在 实际 中 ， 如 果 需 要 让 生产 环境 中 的 代码 支持 不 同 版 本 的 语言 ， 特 别 是 这 里 需要 
支持 Python 3， 必 须要 使 用 这 些 “ifdef” 类 型 的 语句 。 先 放下 这 些 ， 来 看 实际 导入 了 哪些 内 容 。 









































换 名 话说， 这 是 一 个 位 于 内 存 中 的 大 





首先 需要 一 个 ， 带 有 文件 接口 的 大 字符 串 缓冲 区 。 
字符 串 ， 同 时 文 持 文 件 接口 〈《 即 支持 writeO 这 样 的 文 伯 








的 数据 一 般 是 ASCI 或 纯 字 
io.BytesIO 类 作为 StringIO。 








F 方 法 )。 这 就 是 StringIO 类 。 网 络 传 来 
E 字 节 ， 而 不 是 Unicode。 所 以 如 果 需 要 在 Python 3! 


























运行 ， 需 要 用 
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如 果 使 用 Python 2， 就 不 会 涉及 Unicode， 所 以 先 尝试 能 否 使 用 更 快 的 C 编 


cStringIO.StringIO 类 。 如 果 这 个 类 不 可 用 ， 则 使 用 原 








接 下 来 ， 需 要 这 个 类 能 够 较 好 地 生 
版 一 一 itertools.izipO0。 如 果 itertools 模块 中 含有 izip0， 则 表明 位 于 Python 2 中 。 此 时 将 


AA zipQ. All, Œ Python 3 中 ， 因 为 移 除 了 旧 的 zip0， 并 将 izip0 重 命名 为 zip0， 此 上 











该 忽略 掉 ImnportError。 注 意 ， 修 改 既 没有 使 





的 黑客 园地 。 





最 后 一 个 特殊 的 地 方 是 Python 2 上 








WA. A 





























H urlib2 模块 ， 在 Python 3 : 


] zipO 也 没有 使 有 





先 的 StringIO.StringIO 类 。 















































urllib.request 子 模块 中 。 后 者 提供 了 所 需 的 urlopenO 函 数 。 




















最 后 ， 使 用 ElementTree 以 及 | 
的 输出 通常 用 来 显示 警告 消息 ， 所 以 使 用 disutils.log.warnO Sé zr) H o 
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应 用 程序 在 这 里 获取 数据 。 首 先 打开 一 个 
的 RSS 输出 。 读 取 整 个 源 ， 将 其 直接 写 入 内 存 中 等 价 于 文件 的 StringIO 里 。 
] topic=h 键 值 对 表示 。 其 他 选项 包括 : ir 表示 焦点 新 闻 ，w 





























请 求 的 主题 是 头条 新 闻 ， 它 















































— 





] 于 美化 输 








表示 全 球 新 闻 ，n 表示 美国 
示 体 育 新 闻 ; Snc 表示 科技 新 闻 ma 




















新 闻 ，b RAR 





链接 ， 
































译 的 


此 会 使 用 内 置 函数 zip0 对 应 的 迭代 器 


tu 














H izipO0。 更 多 信息 ， 参 考 稍 





可 
NN. 








后 








该 模块 合并 到 了 


的 pprint.pprintO 函 数 。 在 这 个 例子 中 ， 程 序 





从 Google News 服务 器 请 求 XML 格式 























“新闻 ，tc 表示 科技 新 闻 ，e 表示 娱乐 

















EB 





Er E] o 


















































折 闻 ， s 


获取 完成 后 关闭 文件 的 Web 链接 ,将 这 个 文件 类 型 对 象 传递 给 ElementTree.parse() ef žr, 
该 函数 解析 XML 文档 ， 返 回 ElementTree 类 的 一 个 实例 。 注意， 这 里 可 以 自行 实例 化 ， 因 为 




















在 这 个 例子 中 ， 调 
这 个 内 存 中 的 文件 。 
& 30—50 41 



















































































topnewsO 函 数 为 调用 者 整理 输出 结果 。 这 里 只 想 

















两 个 元 素 的 列表 (但 当 作 元 组 使 




















这 两 项 时 才 会 返回 迭代 数据 项 。 


未 达 上 限 则 直接 重 置 








这 个 二 元 组 。 





对 于 第 一 个 标题 需要 特殊 处 理 ， 





























] )。 元 组 的 第 一 个 元 
否则 ， 如 果 请 求 达到 新 闻 数 





返回 正确 格式 化 的 新 闻 项 ， 所 以 先 创建 


















































素 是 标题 ， 第 二 个 是 链接 。 只 有 同时 有 
HER (默认 为 5 条 〉 则 退出 ， 





1 ElementTree.parse(f) {ft + ElementTree.ElementTree(file=f) . wa, XH] 











因为 这 并 不 是 真正 的 新 闻 标 题 ， 而 是 新 闻 类 型 的 标 


题 。 在 这 里 , 因为 请 求 的 是 头条 , 所 以 “title” 字 有 段 获取 的 不 是 新 闻 的 标题 , 而 是 “category” 


标题 ， 以 及 从 “TopStories” 中 提 
该 脚本 最 后 两 行 代码 输出 由 topnewsO 生 成 的 二 元 组 。 
XML 所 能 做 的 不 仅 是 文本 处 理 。 

















Me 





























DE 





作为 内 容 的 字符 串 。 需 要 忽略 掉 这 些 。 





























P 


过 程 调 用 (Remote Procedure Call, RPC). 


节 就 明显 与 XML 有 关 ， 但 实际 上 又 没有 月 
XML. XML 是 基本 的 砖 瓦 ， 提 供 在 线 服务 的 开发 者 可 以 在 高 层次 的 客户 端 /服务 器 计 入 
码 。 为 了 简化 这 些 任务 ， 无 须 创 建 让 客户 端 能 够 














HSI 





























上 上 





周 用 函数 的 服务 ， 更 具体 一 些 ， 即 远程 
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核心 提示 : (黑客 园地 )， 将 topnews( 缩 减 为 一 行 较 长 的 Python 代码 
可 以 将 topnews0 的 代码 缩减 为 一 行 诺 套 的 代码 . 


topnews = lambda count=5: [(x.text, y.text) for x, y in zip 
(tree.getiterator('title'), tree.getiterator('link')) if not 
x.text.startswith('Top Stories')][:count] 


希望 这 没有 看 坏 读者 的 眼睛 。 其 中 的 秘密 之 处 在 于 ElementTree.getiterator() 4k, vA 
及 假设 所 有 新 闻 数据 已 经 正确 格式 化 了 。 在 原来 的 标准 版 totpnewsO 中 ， 既 没有 使 用 zip()， 
也 没有 使 用 itertools.izip()， 但 这 里 使 用 zip0 将 标题 和 对 应 的 链接 组 合 起 来 。 


14.3.4 * 使 用 XML-RPC 的 客户 端 -服务 器 服务 


XML-RPC 创建 于 20 世纪 90 年 代 末 ， 让 开发 者 能 够 通过 超 文 本 传输 协议 (HyperText 
Transfer Protocal, HTTP) 作为 传输 机 制 ， 以 此 来 创建 远程 过 程 调用 ,而 XML 文档 作为 载体 。 

XML 文档 同时 包含 ，RPC 的 名 称 ， 以 及 任何 用 于 执行 的 参数 。XML-RPC 导 致 了 SOAP 的 
出 现 ， 当 然 没 有 SOAP 那 么 复杂 。 由 于 JSON 比 XML 更 加 易 读 ， 因 此 也 有 一 个 JSON-RPC， 包 
舌 SOAP 版 本 的 SOAPjr”。 

Python 对 XML-RPC 的 支持 来 自 于 3 个 包 : 客户 端的 xmlrpclib， 以 及 服务 器 端的 
SimpleXMLRPCServer 和 DocXMLRPCServer。 很 自然 ， 在 Python 3.x 中 这 三 个 包 重 组 为 
xmlrpc.client 和 xmlrpc.server。 

示例 14-5 显示 的 是 xmlrpcsrvrpy， 这 是 针对 Python 2 的 脚本 ， 它 包括 简单 的 XML-RPC 
服务 以 及 诸多 RPC 调用 。 这 里 首先 列 出 代码 ， 接 着 介绍 RPC 提供 的 每 个 服务 。 






















































































过 














































































































示例 14-5 XML-RPC 服务 器 代码 (xmlrpcsrvr.py) 


这 是 一 个 XML-RPC 服务 器 示例 ， 其 中 含有 多 个 RPC 函数 。 
1 #!/usr/bin/env python 


2 

3 import SimpleXMLRPCServer 

4 import csv 

5 import operator 

6 import time 

7 ‘import urllib2 

8 import twapi # twapi.py from the "Web Services" chapter 


10 server = SimpleXMLRPCServer.SimpleXMLRPCServer(("localhost", 8888)) 
ll server.register introspection functions () 


13 FUNCs = ('add', 'sub', 'mul', 'div', 'mod') 
l4 for f in FUNCs: 
15 server.register function(getattr(operator, f)) 





? BY SOAP fll ISON-RPC 的 缩写 。 一 一 译 者 注 
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16 server.register_function(pow) | 


17 
18 class SpecialServices(object): 
19 def now_int(self): 
20 return time.time() 
21 
22 def now_str(self): 
23 return time.ctime() 
24 
25 def timestamp(self, s): 
26 return '[%s] %s' % (time.ctime(), s) 
27 
28 def stock(self, s): 
29 url = 'http://quote.yahoo.com/d/quotes.csv?s=%s&f=I1lclp2d1tl' 
30 u = urllib2.urlopen(url % s) 
31 res = csv.reader(u).next() 
32 u.close() 
33 return res 
34 
35 def forex(self, s-'usd', t-'eur'): 
36 url = 'http://quote.yahoo. com/d/quotes.csv?s=%s%S=X&f=n11d1it1' 
37 u = urllib2.urlopen(url % (s, t)) 
38 res = csv.reader(u).next() 
39 u.close() 
40 return res 
41 
42 def status(self): 
43 t = twapi.Twitter('twython') 
44 res = t.verify credentials() 
45 status = twapi.ResultsWrapper(res.status) 
46 return status.text 
47 
48 def tweet(self, s): 
49 t = twapi.Twitter('twython') 
50 res = t.update_status(s) 
51 return res.created at 
52 
53 server.register_instance(SpecialServices()) 
54 
55 try: 
56 print 'Welcome to PotpourriServ v0.1\n(Use ^C to exit)' 
57 server.serve forever() 
58 except KeyboardInterrupt: 
59 print 'Exiting' 
逐 行 解释 
第 1~8 行 











这 里 含有 多 条 导入 语句 。 首 先是 最 重要 的 SimpleXMLRPCServer， 其 后 是 一 些 辅助 导入 























语句 ， 它 们 提供 这 里 所 需 的 服务 。 甚 至 在 多 











8 13 X] Yahoo! 股票 报价 服务 器 和 Twitter 代码 





中 也 用 到 过 这 些 服务 。 





首先 导入 所 需 的 标准 库 模块 / 包 ， 然 后 导入 用 户 级 别 的 模块 ， 即 用 于 与 Twitter 服务 交互 





的 twapi。 导 入 语句 的 顺序 遵循 最 佳 实践 准则 ， 即 首先 是 标准 库 ， 接 着 是 第 三 方 库 ， 最 后 是 用 
































户 定义 的 库 。 


建 服 务 。 在 这 个 
XML-RPC 内 省 函 
这 些 函 数 允 许 客户 端 通过 查询 服务 器 ,来 确定 服务 器 的 能 
支持 哪些 方法 、 它 如 何 调用 特定 的 RPC, 以 及 是 否 有 某 个 特定 RPC 的 文档 


第 10—11 4F 


导入 完 所 需 的 包 以 后 ，SimpleXMLRPCServer 使 


H localhost 或 127.0.0.1。 其 后 代码 注册 了 通常 会 用 到 的 











ISP, MAM EA 
BL. 


system.methodSignature . 


中 获取 的 其 


Wig 





这 三 个 函数 分 别 为 : now int, % 














下 面 这 个 链接 
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JAE RJ EHL ER IP H 
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I 











址 和 端口 号 来 创 





















































system.methodHelp 这 些 调用 就 用 来 解决 这 些 问题 。 
含有 这 些 内 省 函数 的 规范 。 


http:// scripts.incutio 
而 下 面 这 个 链接 中 有 关于 如 何 显 式 实现 这 些 函 数 的 示例 。 
http://www.doughellmann.com/PyMOTW/SimpleXMLRPCServer/#introspection-api. 














第 13~16 íF 


这 4 行 代码 通 






































使 


第 18—26 4T 





o 





接 下 来 需要 添加 到 服务 中 的 函数 与 


过 RPC 来 提供 
也 5 个 算术 函数 。 











.com/xmlrpc/introspection.html 
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We PR TE & 









































二 间 相 关 。 这 些 函 数位 于 SpecialServices)25! 











。 它 们 帮助 客户 端 了 解 服务 器 





。System.listMethods、 


术 函 数 。 包 括 内 置 函 数 powO FA operator 模块 
ServeLIegister_function0 函 数 仅 仅 让 这 些 函 数 可 以 在 RPC 客户 


























在 类 的 外 部 还 是 内 部 没有 实际 区 别 ， 这 里 仅仅 演示 类 中 的 三 个 函数 ， 以 及 前 























] 秒 为 单位 表示 从 1970 年 1 月 1 




















用 的 算术 函数 。 
到 现在 的 时 间 ; 

















now_str0， 该 函数 用 UNIX 格式 的 时 间 惟 表示 本 地 时 区 的 当前 时 间 ; timestampO 函 数 ， 该 函数 


接受 一 个 字符 串 ， 


获取 公 








第 28~40 行 
这 里 直接 复 





HÆ 
TH 














返回 


1 第 13 章 的 代码 ， 


该 字符 串 并 在 前 

















HE HEY TH Xo 














首先 




















立 后 











司 代 号 ， 接 着 获取 最 


b 




















forex() 函 数 与 之 类 似 ， 但 处 理 的 是 汇率 。 


的 实现 ， 


ab a 
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最 后 两 个 需要 注册 的 RPC 是 status0 和 tweetO0 函 数 ， 二 者 来 自 第 13 章 ， 








i WB 
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并 不 是 一 定 要 使 
因为 学 习 XML-RPC 概念 并 不 一 





























最 后 5 行 用 于 





第 13 章 的 代码 ， 所 以 如 果 还 没有 阅 


[的 报价 、 最 


新 变动 、 涨 跌 


EH 
H 








、 Ayy 


TE Uu 





13 章 ， 可 以 








> EE HH 




















制 与 Yahoo! 报价 服务 器 交互 的 代码 。stockO 函 数 
， 以 及 最 近 一 次 交易 的 日 期 和 时 间 。 


跳 过 对 这 些 函 数 


的 Twitter 代码 ， 








到 Twython JÆ.» 。statusO) 函 数 获取 当前 用 户 的 当前 状态 ，tweetO 
段 代码 的 最 后 一 行 ， 通 过 register instanceO PAZ] SpecialServices 类 





局 动 服务 (通过 一 个 无 限 循 环 ), 并 检测 用 户 是 否 想 退 
既然 有 了 一 个 服务 器 ， 



































用 户 更 新 状态 。 




















的 所 有 函数 。 








出 ( 按 














Ctrl+C 组 合 键 )。 





如 果 没 有 客户 端 代 码 使 用 这 个 服务 器 的 功能 ， 那 又 有 什么 用 呢 ? 
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在 示例 14-6 中 ， 将 会 看 到 一 个 可 能 的 客户 端 应 用 ，xmlrpcclnt.py。 很 自然 ， 这 个 程序 可 以 在 
任何 能 通过 相应 的 主机 /端口 地 址 对 访问 服务 器 的 计算 机 上 运行 。 








示例 14-6 Python 2 版 本 的 XML-RPC 客户 端 代码 (xmlrpcclnt.py) 
个 调用 XML-RPC 服务 器 的 可 能 客户 端 。 























bx 
a 


#!/usr/bin/env python 


1 

2 

3 from math import pi 

4 import xmlrpclib 

> 

6 server = xmlrpclib.ServerProxy('http://localhost:8888') 

7 print 'Current time in seconds after epoch:', server.now int() 
8 print 'Current time as a string:', server.now str() 

9 print 'Area of circle of radius 5:', server.mul(pi, server.pow(5, 2)) 
10 stock - server.stock('goog') 

l 


-0 


print 'Latest Google stock price: %s (9s / 96s) as of %s at %s' % 

tuple(stock) 

12 forex = server.forex() 

13 print 'Latest foreign exchange rate from 95s: %s as of %s at %s' 96 
tuple(forex) 

14 forex = server.forex('eur', 'usd') 

15 print 'Latest foreign exchange rate from %s: %s as of %s at %S' % 
tuple(forex) 

16 print 'Latest Twitter status:', server.status() 





这 里 没有 太 多 客户 端的 成 分 ， 但 还 是 来 看 一 下 。 

逐 行 解释 

第 1~6 行 

为 了 连接 XML-RPC 服务 器 ， 需 要 Python 2 中 的 xmlrpclib 模块 。 前 面 提 到 ， 在 Python3 
中 需要 使 用 xmlrpc.client。 另 外 还 用 到 了 math 模块 中 的 天 常量 。 在 实际 代码 的 第 一 行 ， 连 接 
到 XML-RPC 服务 器 ， 将 主机 /端口 对 作为 URL 传递 进去 。 

第 7 一 16 行 

剩 下 的 代码 用 来 向 XMLRPC 服 务 器 发 送 RPC 请 求 ， 最 终 获 取 所 需 的 结果 。 这 个 客户 端 
唯一 没有 测试 的 函数 是 tweetO0， 这 一 部 分 将 作为 练习 留 给 读者 。 做 这 么 多 的 调用 看 起 来 有 
些 多 余 ， 的 确 很 多 余 ， 所 以 在 本 章 末尾 会 看 到 一 个 练习 “来 解决 这 个 问题 。 

服务 器 启动 后 ， 就 可 以 运行 客户 端 并 看 到 一 些 输出 (读者 的 输出 会 与 下 面 的 有 所 不 同 )。 



















































































$ python xmlrpcclnt.py 

Current time in seconds after epoch: 1322167988.29 
Current time as a string: Thu Nov 24 12:53:08 2011 
Area of circle of radius 5: 78.5398163397 





© 练习 14-15。 一 一 译 者 注 
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Latest Google stock price: 570.11 (-9.89 / -1.71$) as of 11/23/2011 at 
4:00pm 
Latest foreign exchange rate from USD to EUR: 0.7491 as of 11/24/2011 
at 3:51pm 

Latest foreign exchange rate from EUR to USD: 1.3349 as of 11/24/2011 








at 3:51pm 
Latest Twitter status: @KatEller same to you!!! :-) we need a 
celebration meal... this coming monday or friday? have a great 





thanksgiving!! 








A 





管 本 章 已 到 末尾 ， 但 仅仅 接触 到 XML-RPC 和 JSON-RPC 编程 的 皮毛 。 若 想 了 解 更 多 




















相关 内 容 ， 建 议 通 过 DocXMLRPCServer 类 来 了 解 自 归档 的 XML-RPC 服务 器 ， 以 及 从 


XML-RPC 服务 器 能 获取 的 不 同类 型 的 数据 结构 (参见 xmlrpclib/xmlrpc.client 文档 )。 


14.4 


网 
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对 于 想 进 一 步 了 解 的 读者 ， 建 议 阅 读 Text Processing in Python (Addison-Wesley, 2003) 
一 书 ,这 是 Python 文本 处 理 方面 的 经 典 。 还 有 另 一 本 书 , 名 为 Python 2.6 Text Processing Packt, 
2010). 要 管 书 名 中 的 2.6， 其 中 介绍 的 内 容 可 用 于 大 多 数 当前 的 Python 版 本 中 。 


14.5 “相关 模块 



















































































与 文本 处 理 相关 的 模块 见 表 14-2。 
表 14-2 ”与 文本 处 理 相关 的 模块 




























































































模块 / 包 Ho R 
csv? 逗号 分 割 值 的 处 理 
SimpleXMLRPCServer XML-RPC 服务 器 (在 Python 3 中 合并 进 xmlrpc.server 中 ) 
DocXMLRPCServer 归档 的 XML-RPC 服务 器 (在 Python 3 中 合并 进 xmlrpc.server 中 ) 
xmlrpclib XML-RPC 客户 端 (在 Python 3 中 重 命名 为 xmlrpc.client) 
json” JSON 编码 和 加 码 工具 (在 Python 2.6 之 前 是 外 部 包 simplejson ) 
xml.parsers.expat ^ 快速 无 验证 的 XML 解析 器 
xmldom 基于 树 /DOM 的 XML 解析 
xml.sax? 基于 事件 / 流 的 XML 解析 




















xml.etree.ElementTree ^ ElementTree XML 解析 器 和 树 构建 器 
QD Python 2.3 中 新 增 。 


@ Python 2.6 中 新 增 。 





(8 Python 2.0 中 新 增 。 


14.6 练习 


CSV 


14-1 CSV. fF AX CSV 格式 ? 它 适合 什么 类 型 的 应 用 ? 
14-2. CSV 与 str.split()。 找 到 一 些 示例 数据 ， 在 这 些 数据 中 strsplit(,) 无 法 满足 需要 ， 只 
能 使 用 csv 模块 。 
14-3 CSV 与 str.split()。 在 第 13 章 的 练习 13-16 中 ， 需 要 让 stock.py 的 输出 更 加 灵活 ， 
让 所 有 列 尽 量 对 齐 。 除 了 不 同 股票 代号 的 长 度 差 异 ， 不 同 股票 的 价格 和 涨 跌幅 也 
在 变动 。 更 新 练习 13-16， 用 csv.readerO 8$ HH str.split(). 






































































































































14-4 ” 另 一 种 CSV 格式 。 除 了 逗号 之 外 ， 还 有 另 一 种 分 隅 符 。 例 如 ， 兼 容 POSIX 的 密 
码 文件 使 用 冒号 分 制 ，Outlook 中 的 电子 邮件 地 址 使 用 分 号 分 隔 。 创建 可 以 读 取 或 









































写 入 这 些 使 用 其 他 分 隔 符 的 函数 。 
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JSON 


14-5 JSON. JSON 格式 与 Python 中 的 字典 和 列表 在 语法 上 有 什么 区 别 ? 

14-6 JSON 数组 。dict2json.py 示例 只 演示 了 将 Python 字段 转换 成 JSON 对 象 。 创 建 一 
个 相似 的 脚本 ， 命 名 为 lort2json.py， 将 列表 或 元 组 转换 成 JSON 数组 。 

14-7 后 向 兼容 . 使 用 Python 2.5 或 更 老 版 本 运行 示例 14-2 中 的 dict2json.py 会 出 现下 面 
的 错误 。 


$ python2.5 dict2json.py 






























































Traceback (most recent call last): 
File "dict2json.py", line 12, in «module» 
from json import dumps 


ImportError: No module named json 


a) 为 了 让 该 脚本 在 老 版 本 Python 中 运行 ， 需 要 做 哪些 工作 ? 
b) 修改 dict2json.py 的 代码 ， 导 入 相关 老 版 本 Python CU 2.4 和 2.5) 中 对 应 的 
JSON 功能 ， 使 其 能 在 2.6 和 之 后 的 版 本 中 正常 工作 。 
14-8 JSON. [第 13 Æ) Yahoo! Finance 服务 中 获取 股票 报价 的 stock.py 示例 中 添加 新 
































































































































代码 ， 让 其 返回 ISON 字符 串 ， 用 层次 化 的 数据 结构 格式 表示 股票 数据 ， 而 不 是 
直接 转 储 到 屏幕 上 。 

14-9 JSON 和 类 型 /类 。 编写 脚本 ,对 任意 类 型 的 Python 对 象 编码 和 解码 ， 如 数值 、 类 、 
实例 等 。 


XML 和 XML-RPC 


14-10 Web 编程 。 改 进 goognewsrss.py 脚本 ， 让 其 能 输出 格式 化 的 HIML，HTML 中 含 
有 锚 /链接 ， 这 些 锚 / 链 接 直 接连 接 到 用 于 浏览 器 演 染 且 无 外 链 的 .html 文件 。 这 些 
链接 应 当 是 正确 的 ， 用 户 单 击 后 可 以 进入 对 应 的 Web 页 面 。 
14-11 健壮 性 。 在 xmlrpcsrvrpy 中 ， 添 加 对 >、>=、<、<=、==、!= 操 作 的 支持 ， 以 及 
真 除 (true division) 和 地 板 除 (floor division). 
14-12 Twitter。 在 xmlrpcclnt.py 中 ， 没 有 测试 SpecialServices.tweet(0 方 法 。 在 脚本 中 添 
加 对 这 个 方法 的 测试 。 
14-13 — CGIXMLRPCRequestHandler 。 默认 情况 下 ，SimpleXMLRPCServer 使 用 
SimpleXMLRPCRequestHandler 处 理 类 。 这 个 处 理 程序 与 CGIXMLRPCRequestHandler 
有 什么 区 别 ? 创建 一 个 使 用 CGIXMLRPCRequestHandler 的 新 服务 器 。 
14-14 DocXMLRPCServer。 了 解 自 归 档 的 XML-RPC 服务 器 ， 回 答 以 下 问题 。 
a) SimpleXMLRPCServer 与 DocXMLRPCServer 对 象 之 间 有 什么 区 别 ? 除 此 之 
Sh, CHIARO 底层 方面 又 有 什么 区 别 ? 
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14-15 


14-16 


14-17 
14-18 























bO 将 本 章 中 标准 的 XML-RPC 客户 端 与 服务 器 转换 成 自 归档 形式 。 

c) 将 上 一 练习 中 的 CGI 版 本 转换 成 使 用 DocCGIXMLRPCRequestHandler 类 。 
XML-RPC 多 调用 。 在 xmlrpcclnt.py F, 每 调用 一 次 都 会 向 服务 器 发 送 一 个 请 求 。 
如 果 客 户 端 向 服务 器 发 送 多 个 调用 , 但 只 向 服务 器 发 送 一 个 服务 请 求 , 这 样 做 能 
提高 性 能 。 研 究 register_mnulticall_functionsO 函 数 ， 接 着 将 这 些 功能 添加 到 服务 
器 中 。 最 后 修改 客户 端 来 使 用 多 调用 。 
XML 和 XML-RPC。 本 章 中 XML-RPC 的 内 容 在 哪些 方面 与 XML 有 关 ? 最 后 一 
节 的 内 容 与 本 章 其 他 部 分 有 明显 差异 ， 这 是 如 何 结合 到 一 起 来 的 ? 

JSON-RPC 与 XML-RPC。 什 么 是 JSON-RPC? 其 与 XML-RPC 有 什么 关系 ? 
JSON-RPC。 将 XML-RPC 客户 端 和 服务 器 代码 移植 到 等 价 的 jsonrpcsrvr.py 和 
jsonrpcclnt.py 中 。 
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第 15 章 其 他 内 容 


在 Google 中 ，Python 是 三 种 “官方 语言 ” 之 一 ， 另 外 两 种 是 C++ 和 Java. 
Greg Stein, 2005 年 3 月 
(在 SDForum 会 议 上 所 说 的 话 ) 








本 章 内 容 : 
e Jython; 
e Google+. 
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15.1 Jython 



























































与 第 14 章 类 似 ， 本 章 介绍 Python 编程 其 他 方面 的 内 容 ， 由 于 篇 
。 作 者 希望 本 书 将 来 出 新 版 本 时 ， 可 以 将 本 章 的 每 一 节 都 扩充 为 完整 的 一 
Java 和 Jython 编程 ， 然 后 讨论 Google+API。 




















这 里 只 做 简要 


。 本 章 首 先 





本 节 将 介绍 如 何 使 用 Jython 在 JVM 中 运行 Python。 首 先 介绍 什么 是 Jython， 以 及 其 与 

















Python 工作 方式 的 异同 。 接 着 介绍 
目的 不 是 开发 GUI 程序 ,但 这 个 示例 

































































版 本 。 在 本 书 将 来 的 新 版 本 中 ， 和 希望 能 介绍 更 多 的 Java 转 Python 版 本 的 实例 。 





15.1.1 Jython 简介 




















一 个 使 用 Swing 的 GUI 示例。 虽然 通常 人 们 使 用 Java 的 
能 很 好 对 比 Java 编 写 的 代码 , 以 及 Jython 中 等 价 的 Python 


Jython 是 一 根 纽带 ， 联 系 着 两 种 不 同 编程 环境 的 人 群 。 首 要 原因 是 其 适合 Python 开发 者 











在 Java 开发 环境 中 使 用 Python Bt 









































速 开发 方案 原型 ， 并 无 缝 地 集成 到 已 有 的 Java 了 


SE ZI 














o J 














个 原因 是 通过 为 Java 提供 一 个 脚本 语言 环境 ， 可 以 简化 无 数 Java 程序 员 的 工作 。Java f£ 
序 员 无 须 为 测试 一 个 简单 的 类 而 编写 测试 套件 或 驱动 程序 。 
且 能 够 实例 化 Java 类 并 与 之 交互 。Jython 代码 会 动态 


























Jython 提供 了 大 部 分 Python $ 






























































力 能 ， 
地 编译 成 Java 字 节 码 ,还 可 以 用 Jython 扩 展 Java 类 通过 Jython, 还 能 使 月 
户 能 方便 地 在 Python 中 编写 一 个 类 ， 在 Java 环境 中 就 如 同 原生 的 Java 2 















































以 把 Jython 脚本 静态 地 编译 为 Java 字 节 码 。 
读者 可 以 从 本 书 网 站 或 http:Wjython.org 下 载 Jython。 在 首次 运行 Jython 交互 式 
它 会 显示 一 些 提示 信息 ， 告 知 用 户 执行 了 一 些 .jar 文件 ， 如 下 所 示 。 
































$ jython 


*sys-package-mgr*: processing new jar, '/usr/local/jython2.5.2/ 


jython.jar' 


*sys-package-mgr*: processing new jar, '/System/Library/Java/ 


JavaVirtualMachines/1.6.0.jdk/Contents/Classes/classes.jar' 


*sys-package-mgr*: processing new jar, '/System/Library/Java/ 


JavaVirtualMachines/1.6.0.jdk/Contents/Home/lib/ext/sunpkcs1ll.jar' 


Jython 2.5.2 (Release 2 5 2:7206, Mar 2 2011, 23:12:06) 


[Java HotSpot(TM) 64-Bit Server VM 


Type "help", "copyright", 


>>> 








H Java 来 扩展 Python。 








类 来 使 





HH 





。 甚 至 可 





(Apple Inc.)] on javal.6.0 26 


"credits" or "license" for more information. 





解释 器 时 ， 








启动 Jython 交互 
“Hello World! ”。 


$ jython 
Jython 2.5.2 


[Java HotSpot(TM) 64-Bit Server VM 


Type "help", 


XN 


T 
E 
E 


G 


解释 器 ; 


























(Release 2 5 2:7206, Mar 2 2011, 23:12:06) 
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觉 就 像 在 用 Python 一 样 。 当 然 ， 可 以 执行 Python 中 相同 的 


(Apple Inc.)] on javal.6.0 26 


"copyright", "credits" or "license" for more information. 


>>> print 'Hello World!' 


Hello World! 


























更 有 趣 的 是 ， 可 以 在 Jython 交互 式 解释 器 中 使 用 Java 编写 “Hello World ! ". 


>>> from java.lang import System 


>>> System.out.write('Hello World!\n"') 





Hello World! 


Java 为 Python 用 户 带 来 了 一 些 额 外 的 好 处 ， 如 可 以 使 
准 Python 中 是 无 法 使 用 Java 的 异常 




























































































] Java 原生 的 异常 处 理 〈 在 标 
的 ， 当 与 其 他 Python 实现 做 比较 时 ， 标 准 Python 都 














可 收 器 《这 样 就 无 须 在 Java | 




















是 指 CPython)， 并 使 用 Java 的 垃圾 








圾 回收 器 了 )。 








15.1.2 Swing GUI 开发 示例 


由 于 Jython 能 够 访问 所 有 Java Ñ, W 














Cm 


H Tkinter 模块 





















































示例 15-1 是 使 





























重新 实现 Python 的 垃 





此 能 做 的 事 就 太 多 了 。 比 如 (GUI 开发 。 在 Python 








的 Tk 作为 默认 GUI 工具 包 ， 但 是 ，Tk 不 是 Python 的 原生 工具 包 。 然 


























] Java 编写 的 一 个 简单 的 “Hello World!" GUI 程序 ， 其 后 的 示例 15-2 是 

















» Java 有 原生 的 Swing。 通 过 Jython， 可 以 用 Swing 组 件 写 一 个 GUI 应 用 程序 。 注 意 ， 不 
用 Java， 而 是 用 Python 编写 。 






































对 应 的 Python 版 本 。 这 两 个 版 本 都 模仿 了 第 5 章 中 的 Tk 例子 tkhello3.py, 分 别名 为 swhello.java 


和 swhello.py。 


示例 15-1 J ava 版 的 Swing“Hello World" (swhello.java) 


5 tkhello3.py 相同 ， 这 段 程序 使 


import 
import 
import 
import 


public 
JP 
JL 
JB 


——0o00-)9 tU. £à&UuIt'-— 


-O 




















java.awt.*; 





Swing 创建 一 个 GUI， 而 不 是 Tk。 但 使 


java.awt.event.*; 


javax.swing.*; 
java.lang.*; 


class swhello extends JFrame { 


anel box; 
abel hello; 
utton quit; 


public swhello() { 

















的 语言 是 Java. 
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12 super("JSwing"); 

13 JPanel box = new JPanel(new BorderLayout()); 

14 JLabel hello = new JLabel("Hello World!"); 

15 JButton quit = new JButton("QUIT") ; 

16 

17 ActionListener quitAction = new ActionListener() { 
18 public void actionPerformed(ActionEvent e) { 
19 System.exit(0); 

20 } 

21 E 

22 quit.setBackground(Color.red); 

23 quit.setForeground(Color.white); 

24 quit.addActionListener(quitAction); 

25 box.add(hello, BorderLayout.NORTH) ; 

26 box.add(quit, BorderLayout.SOUTH); 

27 

28 addWindowListener(new WindowAdapter() { 

29 public void windowClosing(WindowEvent e) { 
30 System.exit(0); 

3l 

32 D; 

33 getContentPane().add(box); 

34 packO; 

35 setVisible(true); 

36 } 

37 

38 public static void main(String args[]) { 

39 swhello app = new swhello(); 

40 } 

41 ] 


示例 15-2 Python 版 的 Swing “Hello World” (swhello.py) 
这 段 Python 脚本 的 功能 与 前 面 的 Java 程序 完全 相同 ， 由 Jython 解释 器 执行 。 






































#!/usr/bin/env jython 


1 

2 

3 from pawt import swing 

4 import sys 

5 from java.awt import Color, BorderLayout 
6 

7 def quit(e): 

8 sys.exit( 

9 

10 top = swing.JFrame("PySwing") 


ll box = swing.JPanel() 

12 hello = swing.JLabel("Hello World!") 

13 quit = swing.JButton("QUIT", actionPerformed=quit, 
14 background=Color.red, foreground=Color.white) 


16 box.add("North", hello) 

17 box.add("South", quit) 

18 top.contentPane.add(box) 

19 top.pack() 

20 top.visible- 1 # or True for Jython 2.2+ 








9153: 其 


HEAR 581 


这 两 段 代 码 的 功能 与 tkhello3.py 完全 相同 ， 区 别 仅 在 于 用 Swing 替换 了 Tk。 下面 会 同步 





介绍 这 两 段 代码 。 
代码 解释 








TEJF3k, swhello.java 和 swhello.py 都 导入 所 需 的 模块 、 库 和 包 。 两 个 程序 ! 
使 用 Swing 原 语 (primitive )。 在 Java 代码 块 中 完成 了 quit 回调 ， 而 在 Python 代码 中 ， 在 

















入 程序 的 核心 之 前 定义 了 quit 函数 。 
接着 定义 了 小 组 件 ， 在 此 之 后 的 代码 将 这 些小 组 件 放置 到 UI 



























































的 下 一 部 分 























合适 的 位 置 。 最 后 的 行 


为 是 将 所 有 内 容 放 到 内 容 面板 中 ， 打 包 所 有 的 小 组 件 ， 最 后 让 整个 用 户 界 面 可 见 。 

Python 版 本 的 特点 是 其 代码 量 远 小 于 对 应 的 Java 版 本 。Python 版 本 的 代码 更 易 理 解 ， 
行 代码 更 加 精炼 。 简 而 言 之 ， 就 是 见 余 更 少 。 为 了 让 程序 能 够 工作 ，Java 代码 含有 更 多 的 样 
板 代码 。 使 用 Python 可 以 关注 于 应 用 中 的 重要 部 分 ， 即 需要 解决 问题 的 解决 方案 。 



























































同 就 没什么 好 奇怪 的 了 《〈 见 图 15-1)。 


6 O O Jswing @ O A  PySwing 


Mac OS x Hello World! Hello World! 


Ev Eg 









£ ys Ps ES 


Wina2 Hello World! Hello World! 


Java Python 





























B| 15-1 Swing 的 Hello World 示例 脚本 (swhello.java 和 swhello.py) 


Jython 是 一 个 很 强大 的 工具 。 因 为 用 户 能 够 同时 得 到 了 Python 强大 的 表达 能 

















库 





























因为 这 两 个 程序 都 会 编译 成 Java 字 节 码 ， 所 以 在 同一 个 平台 上 ， 两 个 程序 看 上 去 完全 相 


, 以 及 Java 


丰富 的 API。 如 果 读 者 现在 是 一 个 Java 开发 者 , 希望 我 们 已 经 引起 了 你 对 Python 强大 功 


能 的 兴趣 。 如 果 读 者 是 Java 新 手 ，Jython 能 够 让 简化 工作 。 可 以 用 Jython 写 原型 ， 然 后 在 必 





要 的 时 候 ， 轻 松 地 移植 到 Java 中 。 


15.2 Google+ 





本 节 介 绍 Google 的 社交 平台 一 一 Google+。 首 先 介绍 什么 是 Google+， 接 着 讨论 如 何 









































在 Python 中 连接 Google+。 最 后 ， 通 过 一 个 简单 的 代码 示例 介绍 一 些 能 通过 Google+ 和 


Python 完成 的 事情 。 因 为 Google+ 一 直 在 增加 新 特性 ， 所 以 在 本 书 将 来 的 版 本 希望 能 介绍 





更 多 的 功能 。 
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15.2.1 Google+ 平 台 简 介 
Google+ 可 以 理解 为 含有 API 的 另 一 个 社交 平台 .。 也 可 以 从 企业 的 视角 来 理解 它 , BI Google+ 































































































将 Google 的 许多 产品 组 合 到 一 起 , 作为 已 有 特性 集 的 增强 版 本 , 这 也 是 其 名 称 由 来 一 一 Google+。 
无 论 怎么 理解 ，Google+ 都 与 社交 有 关 ， 并 与 Google 的 许多 产品 一 样 ， 有 相应 的 API 
户 可 以 通过 Google+ 发 布 消息 和 照片 。 还 可 以 关注 其 他 人 的 动态 ， 单 击 动态 中 的 “+1” 按 





























钮 来 告诉 对 方 喜欢 这 条 消息 
或 公开 发 布 。 











.用户 可 以 评论 , 也 




















可 以 分 享 , Google+ 会 把 消息 发 送 到 朋友 圈 : 


~ 

















前 面 提 到 了 Google+ 有 API。 在 本 书 编写 之 际 ， 开 发 者 可 以 使 用 这 个 API 访问 并 搜索 











Google+ 的 用 户 和 动态 ， 包 提 




















的 Hangouts， 因 为 后 者 也 有 
并 获取 用 户 的 个 人 资料 。 下 


15.2.2 Python 和 G 

















来 看 一 个 实例 。 











00gle+API 





6 对 这 些 消息 的 动态 评论 。 开 发 者 还 可 以 编写 应 用 来 集成 Google+ 
API。 这 些 API 能 够 让 开发 者 编写 应 用 来 搜索 公开 发 布 的 消息 ， 









































f£ Python 中 访问 Google+ 的 功能 很 简单 。 但 在 这 个 简要 介绍 中 ， 连 认证 相关 的 内 容 都 不 





























会 介绍 (如 果 编 写 的 应 用 获得 了 相应 的 授权 ， 就 可 以 访问 Google+ 的 更 多 数据 )， 所 以 这 个 例 

















Zs 
子 比 一 般 情 况 还 要 简单 。 



































在 开始 之 前 ， 必 须 首先 安装 Google API 的 Python 版 客户 端 程序 库 。 如 果 还 没有 安装 ， 可 以 











方便 地 通过 pip BK easy. install 这 样 的 工具 来 安装 。( 对 于 2.x， 需 要 Python 2.6 或 之 后 的 版 本 ; 对 














于 3.x， 需 要 Python 3.4 及 以 上 的 版 本 。 如 果 使 




















J easy_install， 更 新 和 安装 命令 如 下 所 示 。 


$ sudo easy install --upgrade google-api-python-client 





注意 ， 这 个 库 不 仅 可 以 




















来 访问 Google+ API， 还 可 以 访问 许多 其 他 Google 服务 。 在 这 











个 http:// code.google.com/p/google-api-python-client/wiki/SupportedA pis 中 可 以 找到 完整 的 API 





支持 列表 








下 一 步 ， 需 要 一 个 访问 密 钥 。 访 问 http://code.google.com/apis/console 并 创建 一 个 新 的 项 


目 。 在 新 创建 的 项 目 中 选择 
复制 API 密 钥 ， 将 其 粘贴 到 


























Services 标签 ， 启 月 























H Google+ API。 接 着 ， 选 择 API Access 标签 ， 




















下 面 的 代码 中 。 更 好 的 处 理 方式 是 将 代码 中 的 私密 数据 〈 如 凭证 





























信息 ) 重 构 到 独立 的 文件 ， 








。 完 成 了 这 些 工作 ， 





就 可 以 开始 了 。 





15.2.3 一 个 简单 的 社交 媒体 分 析 工 具 


























示例 15-3 显示 的 是 








个 简单 的 社交 媒体 














分 析 工 具 。 通 过 这 个 工具 ， 可 以 看 到 人 们 在 











Google+ 上 对 某 个 特定 话题 发 表 的 消息 。 但 各 个 消息 的 地 位 并 不 是 相等 的 , 有 些 消 息 的 阅读 人 
数 很 少 ， 有 些 则 会 被 评论 和 分 享 很 多 次 。 
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在 这 个 应 用 中 ， 我 们 只 关注 热门 信息 。 无 论 是 使 用 “Python”" 作 为 搜索 关键 词 ， 还 是 用 户 
B MARSINA HEF, SMR aa Pt a JA BEA B TLBUIH S. 
该 程序 还 有 另 一 个 小 功能 ， 它 能 够 查询 并 显示 一 个 Google+ 用 户 的 个 人 资料 。 

脚本 的 名 称 为 plus_top_posts.py， 但 在 查看 代码 之 前 。 先 来 看 看 下 面 这 个 例子 ， 这 是 一 个 
荣 单 驱动 的 程序 ， 通 过 这 个 程序 可 以 了 解 程序 的 运作 方式 。 


$ python plus top posts.py 




















































































































(p) Top 5 Python posts in past 7 days 
(u) Fetch user profile (by ID) 
(t) Top 5 posts in past 7 days query 


Enter choice [QUIT]: p 


*** Searching for the top 5 posts matching 'python' over the past 7 
days... 


From: Gretta Bartels (110414482530984269464) 

Date: Fri Nov 25 02:01:16 2011 

Chatter score: 19 

Post: Seven years old. Time to learn python. And maybe spelling. 
Link: https://plus.google.com/110414482530984269464/posts/MHSdkdxEyE7 


From: Steven Van Bael (106898588952511738977) 

Date: Fri Nov 25 11:00:50 2011 

Chatter score: 14 

Post: Everytime I open a file in python I realize how awesome the 
language actually is for doing utility scripts. f - 
open('test.txt','w') f.write('hello world') f.close() Try doing that 
in java 

Link: https://plus.google.com/106898588952511738977/posts/cBRko81uYX2 


From: Estevan Carlos Benson (115832511083802586044) 

Date: Fri Nov 25 20:02:11 2011 

Chatter score: 11 

Post: Can anyone recommend some online Python resources for a 
beginner. Also, for any python developers, your thoughts on the 
language? 

Link: https://plus.google.com/115832511083802586044/posts/9GNWa9TXHzt 
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From: Michael Dorsey Jr (103222958721998092839) 

Date: Tue Nov 22 11:31:56 2011 

Chatter score: 11 

Post: I slowly but surely see python becoming my language of choice. 
Programming language talk at the gym. Must be cardio time. 

Link: https://plus.google.com/103222958721998092839/posts/jRuPPDpfndv 


From: Gabor Szabo (102810219707784087582) 

Date: Fri Nov 25 17:59:14 2011 

Chatter score: 9 

Post: In http://learnpythonthehardway.org/ Zed A. Shaw suggest to read 
code backwards. Any idea why would that help? Anyone practicing 
anything like that? 

Link: https://plus.google.com/102810219707784087582/posts/QEC5TQ1qoQU 





(p) Top 5 Python posts in past 7 days 
(u) Fetch user profile (by ID) 
(t) Top 5 posts in past 7 days query 


Enter choice [QUIT]: u 

Enter user ID [102108625619739868700]: 

Name: wesley chun 

URL: https://plus.google.com/102108625619739868700 

Pic: https://lh3.googleusercontent.com/-T wVWLlmg7w/AAAAAAAAAAI/ 
AAAAAAAAAAA/zeVf2azgGYI/photo.jpg?sz-50 

About: WESLEY J. CHUN, MSCS, is the author of Prentice Hall&#39;s 
bestseller, <a href="http://corepython.com"><i>Core Python 
Programming</i></a>, its video 


(p) Top 5 Python posts in past 7 days 
(u) Fetch user profile (by ID) 
(t) Top 5 posts in past 7 days query 


Enter choice [QUIT]: 
$ 


现在 来 看 程序 的 代码 。 


示例 15-3 





第 15 章 H 


简单 的 社交 媒体 分 析 工 具 (plus_top_posts.py) 




















这 个 Python 2 脚本 在 Google+ 中 搜索 匹配 的 消息 和 用 户 个 人 资料 。 
#!/usr/bin/env python 


D O06 —) Ota 4 OU PF — 














import datetime as dt 
from apiclient.discovery import build 


WIDTH - 
MAX DEF 
MAX RES 
MAX TOT 


40 

5 
20 
60 


UID - '102108625619739868700' 
HR = '\n%s' % ('-' * WIDTH) 


API KEY 


= 'YOUR KEY FROM CONSOLE API ACCESS PAGE' 





class PlusService(object): 


def 


def 


def 


scrub - 


. init (self): 
self.service = build("plus", "v1", 
developerKey-API KEY) 


get posts(self, q, oldest, maxp-MAX TOT): 
posts - [] 
cap - min(maxp, MAX RES) 
cxn = self.service.activities() 
handle = cxn.search(maxResults=cap, query=q) 
while handle: 
feed = handle.execute() 
if 'items' in feed: 
for activity in feed['items']: 
if oldest » activity['published']: 
return posts 
if q not in activity['title']: 
continue 
posts.append(PlusPost(activity)) 
if len(posts) »- maxp: 
return posts 
handle = cxn.search next(handle, feed) 
else: 
return posts 
else: 
return posts 


get user(self, uid): 
return self.service.people().get(userId=uid) .execute() 


lambda x: '.join(x.stripO.splitO) 


class PlusPost(object): 


def 


. init__(self, record): 

self.title = scrub(record['title']) 

self.post = scrub(record['object'].get( 
'originalContent', '')) 

self.link = record['ur1'] 

self.when = dt.datetime.strptime( 
record['published'], 
"96Y -96m -96d T96H : 96M : 96S .%FZ") 


他 内 容 
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def 


LEE 


actor = record['actor'] 
self.author = '%s (%s)' % ( 
actor['displayName'], actor['id']) 
obj = record['object'] 
cols = ('replies', 'plusoners', 'resharers') 
self.chatter = \ 
sum(obj[col]['totalItems'] for col in cols) 


top_posts(query, maxp=MAX_DEF, ndays=7): 
print ''' 
Searching for the top %d posts matching \ 


%r over the past %d days...''' % (maxp, query, ndays) 


def 


oldest = (dt.datetime.now()-dt.timedelta(ndays)).isoformat() 
posts = service.get_posts(query, oldest, maxp) 
if not posts: 
print '*** no results found... try again ***' 
return 
sorted_posts = sorted(posts, reverse=True, 
key=lambda post: post.chatter) 
for i, post in enumerate(sorted_posts): 
print '\n%d)' % (i1) 


print 'From:', post.author 
print 'Date:', post.when.ctime() 
print 'Chatter score:', post.chatter 


print 'Post:', post.post if len(post.post) > \ 
len(post.title) else post.title 

print 'Link:', post.link 

print HR 


find top posts(query-None, maxp-MAX DEF): 
if not query: 
query = raw input('Enter search term [python]: ') 
if not query: 
query = 'python' 
top_posts(query, maxp) 


py top posts = lambda: find top posts('python') 


def 


find user: 
uid = raw input('Enter user ID [2s]: ' % UID).stripO 
if not uid: 
uid = UID 
if not uid.isdigitO: 
print '*** ERROR: Must enter a numeric user ID' 


return 
user = service.get user(uid) 
print 'Name:', user['displayName'] 


print 'URL:', user['ur1'] 
print 'Pic:', user['image']['ur1'] 
print 'About:', user.get('aboutMe', '') 


't': ('Top 5 posts in past 7 days query', find top posts), 
'p': C'Top 5 Python posts in past 7 days', py top posts), 
'u': ('Fetch user profile (by ID)', find user), 


prompt = ['(%s) %s' % (item, menu[item][0]) for item in menu] 
prompt.insert(0, '%s\n%s%s' % (HR, 

"Google+ Command-Line Tool v0.3'.center(WIDTH), HR)) 
prompt.append('\nEnter choice [QUIT]: ') 


115 
116 
117 
118 
119 
120 
121 


prompt = '\n'.join(prompt) 


while True: 
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ch = raw_input(prompt).stripQ.lower() 
if not ch or ch not in menu: 


break 
menu[ch] [1] O 





122 if name 一 main 
123 service = PlusService 
124  main() 

Y 4 hn 

逐 行 解 释 


第 1 一 12 行 


O 














很 有 趣 的 是 ， 即 使 这 个 脚本 在 本 书 中 算是 长 
了 标准 库 中 的 datetime 包 ， 男 一 个 导入 了 Google API 的 Python 版 客户 端 库 。 关 于 后 者 ， 只 

















关注 API 中 的 build0 函 数 。 实际 上 , 这 


的 问题 。 在 本 章 末 


在 这 段 代码 的 最 后 一 部 分 列 出 了 需要 用 

















的 ， 但 其 中 只 有 两 条 import 语句 。 一 条 导入 

















尾 有 与 授权 相关 的 练习 。 








部 分 非常 简单 的 原因 是 没有 处 理 安全 方面 ( 即 授权 ) 




































































到 的 














$ Æ o WIDTH 和 HR 变量 只 与 用 户 的 显示 有 











X. API KEY 用 于 验证 Google， 使 用 Google+ 上 获取 公开 数据 的 API。 这 里 强烈 建议 将 这 个 


值 从 届 辑 代码 中 移 走 ， 放 到 另 一 个 文 
其 他 用 户 可 以 访问 你 的 文件 时 ， 
但 其 需要 入 侵 者 了 解 Python 虚拟 机 内 部 工作 机 种 
， 如 何 获取 API 密 钥 。 
MAX_DEF 是 默认 显示 的 结果 数目 ,MAX_RES 是 目前 可 以 从 Google+API 获得 的 最 大 搜 
索 结果 数目 ，MAX_TOT 是 当前 允许 使 





























之 前 的 部 分 介 





















































牛 ，( 如 secret.pyc〉 中 ， 以 更 好 地 保证 安全 性 。 只 有 在 
才 提 供 这 个 secret.pyc 文件 〈.pyc 文件 并 不 能 保证 万 无 一 失 ， 























户 ID“〈 表 明 你 是 谁 











Jo 
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PlusService 


该 脚本 


类 提供 了 访问 Google+ API 的 主 接口 。 在 _init_0 初 始 化 函数 中 ， 通 过 调用 












































| 才能 逆向 解码 )。 如 果 缺 少 APL KEY， 本 章 





iy 





























进行 搜索 的 最 大 用 户 数目 ，UID 是 默认 的 用 















































apiclient.discovery.build0 连 接 API， 传 递 所 需 的 API Google+ 用 “plus” 及 其 版 本 号 表示 ) 和 


API Z4]. 
第 19~39 4 





get_posts() 方 法 完成 主要 工作 ， 包 括 设置 和 过 滤 ， 以 及 从 Google 获取 数据 。 它 首先 初始 化 









































结果 列表 〈 即 posts)， 设 置 从 Google 请 求 的 最 大 数目 〈 必 须 小 于 等 于 MAX RES), 24% API 




















链接 ， 生 成 对 Google+API 的 初始 调用 , 在 请 求 成 功 时 返回 handle。 其 中 的 while 循环 确保 进行 





无 限 循环 ， 直 到 API 不 再 返回 更 多 的 结果 。 
链接 handle 执行 查询 并 从 Google-3XH 
































emm 





使 
































有 其 











也 方式 可 以 握 弃 这 个 循环 ， 下 面 会 介 
NR feed。 从 网 络 上 传 回 的 是 JSON 格式 ， 它 





























会 转换 成 Python 字典。 如 果 在 源 (feed). 中 含有 条 目 〈 即 含有 键 名 为 “items” 的 元 素 )， 就 
保存 数据 。 否 则 ， 就 没有 数据 ， 跳 出 循环 并 返回 中 间 结 果 。 在 这 个 循环 


循环 遍历 ， 获 取 并 
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中 ， 还 可 以 根据 时 间 戳 来 退出 。 由 于 API 返回 的 内 容 按时 间 逆 序 排 列 ， 因 此 当 获 取 的 内 
时 间 戳 距 当 前 超过 了 一 周 ， 就 会 知道 所 有 剩 下 的 消 ， 








回 数据 集 。 


e 
T 











昌都 是 老 的 ， 于 是 可 以 安全 地 退出 








时 间 比 较 通 过 直接 比较 ISO 8601/RFC 3339 格式 的 时 间 惟 完成 。 所 有 发 送 过 来 的 Google 





消 





息 都 使 用 这 种 格式 ， 因 
































Zs. TL top_posts()! 


下 一 个 是 过 滤 掉 标题 
附件 或 整个 正文 内 容 ， 








键 字 可 能 会 出 现在 


段 代码 最 后 一 次 过 滤 ， 读 者 可 以 在 这 上 






















































































。 在 本 章 未 尾 有 练习 来 改 j 
添加 其 他 过 滤 功能 。 











这 种 搜索 可 能 不 是 最 精确 


此 本 地 的 时 间 惟 必须 从 datetime.datetime 对 象 转换 成 与 ISO 等 价 的 
的 转换 描述 ， 接 下 来 就 会 看 到 。 
不 含有 搜索 关键 字 的 消息 。 























这 种 





当 消 息 通 过 了 这 些 测 试 后 ， 将 过 滤 后 符合 要 求 的 消息 传递 给 PlusPost 
建 一 个 新 的 PlusPost 对 象 。 
































LZS 




















RRR, MAA 





























己 获 得 最 大 数量 的 结果 。 如 








FH 


果 已 获得 ， 就 返 





Google+ 的 API 的 search_next(0 方 法 ， 将 当前 链接 和 


离开 的 地 方 “是 的 ， 就 像 游标 一 样 )。 








最 后 一 个 else 子 句 
第 41 一 44 行 
该 类 














状态 〈activity)， 所 以 使 月 
为 是 get0 通 过 ID 获取 特定 Google+ 用 户 的 信息 。 









































于 处 理 search 返回 结 























的 最 后 一 个 方法 是 get_user0。 因 为 这 个 实例 侧重 的 是 
H self.service.peopleO {RË self.service.activity()。 这 里 期 望 的 特定 行 


























这 
PRA 























部 分 中 最 后 一 行 代码 提供 
个 空格 ， 以 此 将 其 转 成 单行 文本 。 这 检 














价 的 Web 应 用 却 不 并 需要 这 个 功能 。 
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PlusPost 对 象 的 目的 是 创建 与 消 ， 











这 个 类 将 这 些 数 据 结构 转 成 平坦 的 对 象 ， 将 引 





了 一 个 工具 函数 (scrub()), H 





电 数 据 等 价 的 对 象 ， 但 其 中 的 内 容 精 
有 所 需 的 数据 。 该 对 象 表示 用 户 发 布 的 单条 Google+ 消 息 。Google+ API 返 
常 高 的 JSON 数据 结构 对 象 和 数组 , 分 别 转换 成 Python 字典 或 列表 , 它们 使 用 起 来 有 些 困难 。 
























































消息 的 标题 和 内 容 经 过 处 理 ，URL 未 做 修改 ， 





者 的 信息 包括 























要 的 属性 显示 为 实例 变量 。 
闻 戳 变 得 更 加 易 读 。 保 存 的 
显示 名 称 CdisplayName) 和 ID， 后 者 可 以 用 来 查询 该 用 户 的 更 多 信息 。 消 息 








但 时 


JF (people), rfj ze 








的 ， 因 为 关 





的 初始 化 函数 ， 创 





回 结果 并 退出 。 和 否则 ， 调 
'] handle 传递 进去 ， 让 该 方法 知道 上 次 








来 将 多 行文 本 中 的 多 个 空格 
FE 有 助 于 在 命令 行 脚本 中 控制 输出 内 容 ， 但 等 


简 并 修正 过 ， 只 含 





回 一 个 嵌 套 层次 非 











原始 发 布 




















的 时 间 惟 会 从 ISO 8601/RFC 3339 转换 成 Python 本 地 的 datetime.datetime 对 象 ， 接 着 赋值 给 


self. when. 


























* chatter score " 














值 ， 然 后 使 用 sumQit$ 





来 衡量 消息 的 影响 和 相关 性 。 
总 次 数 。chatter 分 越 高 ， 则 该 消息 对 社交 媒体 分 析 工 
数据 结构 , 分 别 填充 对 应 部 分 的 totalltems 字段 。 接着 使 
AM, WEZA self.chatter。 














chatter 为 一 则 消息 “+ 




















更 重要 。 把 这 些 信 


























1”、 评 论 、 分 享 的 


号 发 送 给 “object” 
生成 器 表达 式 生 成 获取 每 一 列 的 数 
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如 果 读 者 是 Python 新 手 ， 可 以 使 用 下 面 的 代码 ， 这 是 第 60—61 行 代 码 更 直观 的 版 本 。 
self.chatter = api record['object']['replies']['totallItems']^ 
+ api record['object']['plusoners']['totalItems']N 
+ api record['object']['resharers']['totalItems' 
相 比 最 初版 本 的 代码 ， 这 里 做 了 若干 优化 。 下 面 是 优化 的 内 容 及 原因 。 
1. 原先 多 次 使 用 api_ 0 A 询 属性 。 如 果 这 段 代 码 只 运行 几 次 , 还 不 是 个 大 
问题 。 但 如 果 每 天 在 服务 器 上 执行 几 百 万 次 ， 则 它 最 终 会 影响 到 效率 。 常见 的 Python 
最 佳 实践 是 用 一 个 局 部 变量 存储 其 引用 ， 如 obj = record['object']。 














2. 需要 获取 不 同 列 ， 
. 这 里 没有 
由 C 编写 Jj 











as 


通过 

































































这 里 最 重 


H5 








改进 


显现 出 差异 。 





后 的 解 





方案 能 很 好 地 满足 要 














H 








于 次 








$j EJ 





的 话题 ， 








因 











相同 的 名 称 
过 加 号 手动 添加 值 ， 一 般 会 
效率 比 纯 Python 高 。 
如 果 需 要 添加 其 他 衡量 


指标 来 提 





为 Ripples 更 像 是 一 个 可 视 化 地 提供 消息 





























(“totalltem”)， 所 以 将 不 同 列 存 入 
J sumO 这 样 的 内 置 函 数 ， 因 

















是 








AT cols RK 
为 这 — 





高 chatter 分 数 ， 会 增加 代码 长 度 ， 如 “+api_record 
[object][SOMETHING_ELSE][totalItems]”， 现 在 只 须 向 列 字 段 添 加 一 个 单词 即 可 完 
成 ， 例 如 ，cols (replies', 'plusoners', 'resharers', SOMETHING. ELSE). 

















y? 

















JH 


要 的 一 个 目标 就 是 让 代码 符合 Python NU, BURT. fe. QUAE. iU 
求 。 但 如 果 chatter 分 数 需要 计 


10 个 值 的 总 和 ， 就 会 





虽然 与 Google+ Ripples 有 些 类 似 ， 但 chatter 并 不 是 完全 相同 。 
SAY chatter 分 数 (关于 Ripples 的 更 多 内 容 可 





以 访问 


这 两 个 链接 : http://googleblog.blogspot.com/2011/10/google-popular-posts-eye-catching.html 和 
http://google.com/support/plus/bin/answer.py?answer=1713320). 
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top. posts) RK Zt 
里 并 对 结果 排序 ， 最 后 


rs 





降序 排列 。 





改 这 个 行为 。 
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find_top_postsO 函 数 用 于 在 用 户 界 面向 月 





询 。 


默认 情况 下 ， 应 
































JH TERI EB 














bz 的 消 


























逐个 显示 给 






































J xL ZN AY 


以 控制 





为 一 处 可 








的 地 方 


Ei 
AE 


组 成 完 














| B 
A. ETAN 





户 。 该 函数 














i 


























5 条 匹配 度 最 高 的 消息 。 
整数 据 集 的 整 组 消息 


调用 者 可 以 i 





























条 消息 表示 
] sorted() 内 置 函 数 对 消息 按 chatter 


m 


Ji 

















过 第 


开始 查询 , 接着 整 
分 数 





A 


79 行 的 证 语句 修 
































H 




















数 ， 直 接 使 


























ij 





第 92—103 行 
find_userO 函 数 与 find top. posts()25 


来 完成 人 


E 务 。 

















VAPR US 








4 find top 














昌 户 提示 搜 





_posts()。 




















其 任务 是 获取 用 户 





以 ， HE 











BRET, BOB 
如 果 用 户 没 有 提供 任何 搜索 关键 字 ， 则 使 用 默认 的 “python”。py_top_postsO0 是 自 定 义 函 
“python” #2 A EFI 


ID， 接 着 调 




















行 查 


周 用 top_postsOi 























J get user() 














外 保 用 户 输入 的 ID 是 数字 ， 并 将 结果 显示 到 屏幕 上 。 
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第 105—124 íf 

最 后 一 块 代 码 提供 了 _main0O 函 数 ， 用 来 向 用 户 显 示 一 个 含有 不 同 选项 的 菜单 。 该 函数 首 
先 解析 用 于 表示 菜单 的 字典 menu， 接 着 插入 样板 文本 。 然 后 提示 用 户 输入 选项 ， 如 果 选 项 
角 则 执行 。 否 则 ， 默 认 情况 下 该 脚本 将 退出 。 

Google+ 目 前 依然 是 相对 较 新 的 系统 ,在 其 今后 的 发 展 中 , 许多 内 容 都 会 改变 或 增强 ， 要 
对 此 有 所 准备 。 与 前 面 一 节 类 似 , 这 里 仅仅 稍微 接触 了 一 下 Google+ 平 台 及 其 API。 与 Jython 
类 似 ， 希 望 这 个 的 简单 示例 和 对 应 代码 能 够 激发 读者 的 兴趣 ， 进 一 步 了 解 相关 技术 并 激发 出 
一 些 可 行 的 想法 。 在 本 书 将 来 的 新 版 中 ， 可 能 会 扩展 这 些 章节 ! 


15.3 练习 
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zu 

































































Java, Python, J ython 


15-1 Jython. Jython 和 CPython 之 间 有 什么 区 别 ? 
15-2 Java 和 Python。 将 一 个 已 有 的 Java 应 用 移植 到 Python 中 。 记 录 下 移植 过 程 中 的 

















































































































经 验 。 完 成 后 ， 总 结 需要 完成 哪些 事情 ， 包 括 有 哪些 重要 的 步骤 ， 以 及 执行 哪些 
常见 的 操作 。 

15-3 Java 和 Python. ^£2J Jython 源码 。 描 述 一 些 Python 标准 类 型 是 如 何在 Java 中 实 
现 的 。 

15-4 Java 和 Python。 使 用 Java 编写 Python 扩展 。 其 中 有 哪些 必要 步骤 ? 通过 Jython 











交互 式 解释 器 演示 最 终结 果 。 
15-5. Jython 和 数据 库 。 在 第 6 章 找到 一 个 感 兴趣 的 练习 ， 将 其 移植 到 Jython 中 。( 目 前 ) 
最 好 使 用 Jython 2.19， 该 版 本 自 带 zxJDB 这 个 JDBC 数 据 库 模 块 ， 基 本 与 python 
DB-API 2.0 R- 
15-6 Python 和 Jython。 找 到 Jython 中 目前 不 支持 的 一 个 Python 模块 ， 将 其 导入 Jython 
HA, ZAN Jython 提交 一 个 补丁 。 


Google+ 


15-7 ”结果 的 数量 。 在 plus top posts.py 中 ， 对 显示 结果 的 数量 进行 了 限制 ， 只 显示 最 
高 的 5 个， 但 代码 明显 可 以 支持 更 多 结果 。 添 加 一 个 新 的 业 单 项 ， 让 用 户 选 择 选 
择 显示 多 少 个 结果 (需要 是 一 个 合理 的 数字 )。 
15-8 ”时 间 线 。 在 top_posts0 中 ， 有 一 个 ndays 变量 ,默认 情况 下 让 脚本 获取 过 去 7 天 最 
火 的 消息 。 通 过 变量 timpleline〈 任 意 天 数 ) 来 扩大 履 盖 范围 。 






























































































































































































































































© 现在 建议 使 用 Jython 2.7 版 本 。 一 一 译 者 注 
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15-9 面向 对 象 编程 与 全 局 变量 。 在 plus top posts.py 中 ， 将 所 有 核心 功能 放 进 了 


15-10 


15-11 


15-12 


15-13 


15-14 


15-15 





























。 所 有 


PlusService 类 














向 

















外 的 函数 中 。 
a) 这 种 方式 需要 用 到 





A 














局 变量 service。 这 样 有 什么 坏处 ? 














b) 重 构 这 些 代 码 ， 让 外 部 函数 不 





将 


为 





局 部 变量 传递 等 。 


7 














外 部 函数 集成 进 PlusService (£115 _main()), EAH" 





















































多 式 ， 或 创建 可 以 同时 运行 在 








户 的 代码 (raw_inputO0 和 print 语句 ) 都 位 于 该 类 之 


中 访问 全 局 变量 service。 可 以 考虑 下 面 的 方式 : 
的 方法 ; 将 全 局 变量 作 





Python 3。 针 对 Python 的 Google API 客 户 端 库 目 前 还 不 支持 Python 3， 但 正在 开发 
"。 将 plus_top_posts.py 转 换 成 等 价 的 Python 3 








Python 2 或 3 中 的 代码 。 当 Google API 文 持 Python 3 时 , 就 可 以 测试 这 些 代码 ( 验 





证 它 是 否 支 持 Python 3) 


进度 条 。“ 正 在 搜索 ...” 这 则 消息 有 助 于 让 


做 到 这 一 点 ， 


o 

















j 户 了 解 当前 状况 并 等 待 处 








向 plus_top_posts.py 添加 sys 模块 。 接 着 在 PlusService.get_posts()! 








理 结果 。 为 了 












































在 向 结 果 添 加 新 的 PlusPost 对 象 的 代码 后 面 ， 添 加 向 屏幕 输出 单个 点 





























] stderr， 而 不 是 stdout, 








号 的 代码 。 






































因为 前 者 不 使 用 缓存 ， 会 直 




















接 显 示 到 屏幕 上 。 





在 执行 其 他 搜索 时 ， 就 会 认识 到 这 些 内 部 工作 在 显示 之 前 需要 综合 到 一 起 。 



















































































































































































Google+。 用 户 可 以 通过 评论 对 消息 进行 反馈 。 在 plus_top_posts.py 中 ， 只 列 出 
了 消息 。 改 进 相关 功能 ， 证 应 用 还 可 以 显示 每 则 消息 的 评论 。 更 多 内 容 可 以 访问 
https:// developers.google.com/+/api/ latest/comments 。 

授权 。 目 前 在 plus_top_posts.py 中 的 所 有 搜索 都 是 未 授权 的 ， 意 味 着 应 用 只 能 搜 


索 公 共 数 据 。 添 加 对 OAuth2 的 支持 ， 让 应 用 可 以 访问 
































j 户 和 私有 数据 。 更 多 内 





容 可 以 访问 下 面 两 个 链接 : https://developers.google.com/+/api/oauth 和 http://code. 








google.com/p/google -api 
精确 度 。 在 搜索 代码 ! 

















-python-client/wiki/OAuth2Chent. 





, plus top posts.py 脚本 ， 特 别 是 get_posts0 方 法 中 ， 过 





滤 掉 了 不 相关 的 内 容 。i 


文 






































里 只 确保 搜索 关键 字 出 现在 消息 的 标题 ， 

















不 准确 , 因 

















为 标题 仅仅 是 消息 全 文 的 一 部 分 。 检查 消 , 
字 ， 以 此 来 提升 过 滤 的 准确 度 ， 如 果 某 篇 消息 
息 。 可 以 查看 PlusPost 对 象 的 初始 化 函数 来 了 
码 重复 量 。 选 做 题 : 检测 














外 内 容 是 否 也 含有 搜索 关键 
匹配 了 一 个 关键 字 ， 则 保存 这 条 消 


。 这样 做 有 些 





















































解 如 何 获取 消息 内 容 。 尽量 减少 代 
件 内 容 中 是 否 含有 搜索 关键 字 。 
也 认 搜索 顺序 是 最 新 的 消息 在 最 前 面 。 在 调用 self.service. 








时 间 与 相关 度 。Google+t 
activites().serach Of] iE ft 
































， 通 过 orderBy- recent 2 ZR HH. XF orderBy 的 


更 














多 内 容 可 以 访问 开发 者 文档 ， 参 见 https://developers .google.com/+/api/latest/ 


activities/search 。 





© 现在 支持 Python 3.3 以 上 。 一 一 译 者 注 
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a) 这 个 排序 方式 可 以 从 时 间 优 先 改 为 相关 度 优先 ， 即 将 参数 改 为 “best”。 执行 这 

















项 改动 。 
b) 这 个 参数 如 何 影响 get_post0 方 法 中 的 代码 ?原来 的 get_postO0 会 忽略 掉 超 过 期 
限 的 消息 。 




















c) 这 里 要 解决 哪些 问题 ? 如 果 有 的 话 ， 请 解决 。 
15-16 ”用户 搜索 。 通 过 Google+API, 创建 一 个 名 为 find_people0 的 函数 ,添加 对 用 户 的 
HUE. 当前 状态 可 以 使 用 self.service.activities.serach() 方 法 搜索 。 用 户 搜索 等 价 
的 方法 , B self.service.people().search()。 更 多 信息 请 访问 http://developers.google. 
com/+/api/latest/people/ search. 
15-17 PH. plug_top_posts.py 脚本 没有 处 理 附 件 内 容 ， 附 件 有 时 是 一 则 消息 的 关键 因 
素 。 在 执行 脚本 后 显示 出 来 的 前 5 条 与 Python 相关 的 消息 中 (本 书 编写 时 )， 至 
少 有 一 则 消息 含有 相关 Web 页 面 的 链接 ， 还 有 至 少 一 条 消息 含有 图 片 。 对 该 脚 
本 添加 对 附件 的 支持 。 
15-18 ”命令 行 参数 。 本 章 的 plus_top_posts.py 是 命令 行 菜单 驱动 的 程序 。 但 在 实际 中 ， 
有 时 可 能 更 希望 是 非 交 互 的 界面 , 特别 是 对 于 脚本 任务 、 计 划 任 务 等 。 改进 应 用 
集成 命令 行 参 数 解析 接口 〈 以 及 相应 的 功能 )。 建 议 使 用 argparse "BEER, fH 
optparse“ 或 较 老 的 getopt 也 可 以 完成 任务 。 
15-19 Web 编程 。plus_top_posts.py 脚本 作为 命令 行 工具 运行 时 一 切 正常 ， 但 用 户 可 能 
不 会 一 直 使 用 命令 行 ， 有 时 只 能 在 线 访问 。 开 发 一 个 完全 独立 的 Web 版 应 用 。 
读者 可 使 用 任何 所 需 的 工具 。 
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? Python 2.7 中 新 增 。 
2 Python 2.3 中 新 增 。 
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附录 A 部 分 练习 参考 答案 


关于 生命 、 宇 宙 和 一 切 ， 这 个 宏大 问题 的 答案 .…… 就 是 ..….42，Deep Thought 带 着 无 限 


的 威严 和 平静 说 道 。 


第 1 章 


正则 表达 式 


1-1 匹配 字符 串 


一 一 道格拉斯 . 亚当 斯 ，1979 年 10 月 
(Æ$ B The Hitchhiker s Guide to the Galaxy, 1979, Pan Books ) 





bat. hat. bit 等 


[bh] [aiu]t 


1-2” 姓 + 名 


[A-Za-z-]* 


A-Za-z-]* 





《任何 一 对 由 单个 空格 分 隔 的 单词 ， 即 姓 和 名 、 连 字符 都 可 以 ) 


1-3 +E 


[A-Za-z-]+, 











A-Za-z] 


《任何 由 一 个 有 逗号 和 单 空 格 分 隔 的 单词 和 单个 字母 ， 例 如 姓氏 的 首 字 母 ) 
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B. 





[A-Za-z-]+, 





部 分 练习 参考 答案 


A-Za-z-]+ 











(任何 一 对 由 








1-8 Python 长 整 
Nd+ [1L] 
(仅仅 十 进 制 

1-9 Python 浮 点 

















SiS RIS 


型 


整数 ) 
数 


[0-9]* (V. [0-9] *) ? 














(描述 了 一 个 
数 点 及 零 个 或 多 个 数字 ， 如 “0.004”、“2 














第 2 章 


2-3 BÈF 
TCP 

















个 空格 分 隔 的 单词 ， 例 如 姓 、 名 、 


连 字 符 都 可 以 ) 





简单 的 浮 点 数 , 也 就 是 说 , 任何 数量 的 数字 后 可 以 选择 性 地 跟随 一 个 小 








2-6 Daytime 服务 


>>>import socket 


>>> socket.getservbyname ('daytime', 


13 
第 3 章 


3-20 ”标识 符 





pass 是 一 个 关键 字 ， 所 以 它 不 能 








变量 名 字 














第 4 章 


4-2 Python 线程 
VO 密集 型 。 


第 5 章 








为 什么 ? 


5-1 客户 端 /服务 器 架构 











它 负 责 及 时 更 








窗 体 客户 端 是 GUI 事件 ， 这 
新 显示 给 月 





些 事 件 
户 的 内 








” 


'udp') 








ia 





附加 一 条 下 划 线 〈_)。 

















RS 











T 























等 。) 


v 45. BES 








旧作 标识 符 。 所 有 这 种 情况 下 ， 第 见 的 习惯 是 向 








开 且 必须 由 充当 服务 器 的 窗 体系 统 
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第 6 章 
6-1 扩展 Python 
。 性 能 








。 保护 源 代码 
。 功能 的 新 变化 或 期 望 的 变化 
。 更 多 
第 7 章 
7-16 提高 字幕 约 灯 片 的 设计 《部 分 答案 ) 
代码 中 的 主要 问题 是 它 为 演讲 标题 和 个 别 约 灯 片 标题 都 调用 了 str.tile0。 第 43 行 确实 需 
要 改进 。 
s.Shapes[0].TextFrame.TextRange.Text = line.title() 
我 们 可 以 做 出 快速 改变 ， 以 使 得 代码 仅仅 将 标题 大 小 写 应 用 于 标题 《目前 在 所 有 大 写字 
母 中 )， 而 不 管 无 标题 幻灯 片 的 标题 。 


s.Shapes[0].TextFrame.TextRange.Text = title and 


















































line.title() or line 
然而 , 我 们 可 以 做 得 更 好 。 这 个 练习 涉及 如 何 处 理 TCP/IP, 以 及 如 何 避 免 改 变 它 为 “TCP 
/IP” 假设 我 们 定义 一 个 新 的 变量 eachWord。 我 的 建议 是 检查 eachWord == eachWord.upper() 
是 否 成 立 。 如 果 它 是 一 个 缩写 ， 那 么 就 别管 它 ， 否 则 ， 我 们 就 可 以 应 用 标题 大 小 写 。 是 的 ， 
虽然 也 有 例外 ， 但 如 果 我 们 覆盖 了 80%， 那 么 目前 对 我 们 来 说 就 已 经 足够 好 了 。 
第 8 章 
8-1 DB-API 
DB-API 是 一 个 针对 所 有 Python 数据 库 适 配器 的 常见 接口 规范 。 它 是 很 不 错 的 ， 因 为 它 
制 所 有 的 适配器 编写 者 对 相同 的 规范 进行 编码 , 以 便 最 终 用 户 程序 员 能 够 编写 一 致 的 代码 ， 
这 些 代码 可 以 以 最 少 的 工作 量 更 加 容易 地 移植 到 其 他 数据 库 中 。 
# 10% 
10-6 CGI 错误 
Web 服务 器 要 么 不 会 返回 数据 ,要 么 会 返回 错误 文本 , 这 将 在 你 的 浏览 器 中 导致 一 个 HTTP 
500 或 内 部 服务 器 错误 ， 因 为 这 些 返 回 的 数据 不 是 一 个 有 效 的 HITP 或 HTML 数据 。cgitb 模 
块 捕获 Python 错误 消息 与 追溯， 并 将 其 作为 有 效 数 据 通过 CGI 返回 且 显 示 给 用 户 一 个 强大 的 
调试 工具 。 
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第 13 章 
13-8 Web 服务 和 csv 模块 
用 下 面 的 代码 蔡 换 stock.py 中 的 for 循环 。 


import csv 

















for tick, price, chg, per in csv.reader(f): 


print tick.1just(7), ('$.2f' 
2)).rjust(6), chg.rjust(6), 


第 14 章 


14-2. CSV 与 strsplitO 


per.rjust(6) 


$ round(float(price), 



























































显然 ， 当 解析 使 用 不 同 分 隔 符 的 数据 8 
不 言 而 喻 。 除 此 之 外 ， 如 果 字 段 ORA UA 
此 外 ， 如 果 字 段 可 以 包含 引号 ， 也 会 引发 
还 因为 解析 包含 逗号 的 内 容 时 ， 逗 号 可 以 出 











iz 





, 
^ 


f 





值 ) YIEE 
也 问题 ， 














F 





"i 
I’ 





























逗号 真 的 并 不 是 可 使 用 


这 不 仅仅 因为 字符 串 中 可 以 包 
纲 在 一 个 引号 的 左边 或 右边 。 
中 的 所 有 单词 被 当 作 单 个 实体 时 ， 你 将 如 














的 最 好 分 隔 符 ， 这 一 点 
F, 那么 使 用 逗号 也 充满 危险 。 


ais, 











引号 本 身 会 导致 问题 一 一 当 你 希望 引号 字符 上 
何 解析 一 个 包含 引号 字符 串 的 字符 串 ? 
14-11 Fatt 
在 xmlrpesrvr.py 文件 中 ， 修 改 第 13 行为 如 下 内 容 。 
FUNCS ('add', 'sub', 'mod') 
添加 所 有 需要 的 函数 : 
FUNCS ('add', 'sub', 
gt sy Toe Mle’, 
truediv', 'floordiv', 














= 'mul', 'div', 





= 'div', 'mod', 


'mul', 


'le', 'eq', 'ne'!, 





























， 这 些 都 是 可 








) 
在 operator 模块 ! 














第 15 章 


15-1 Jython 


在 你 应 该 有 足够 的 知识 ， 并 能 够 增加 一 元 操作 符 -、**， 以 及 接 位 操作 符 &、 


(提示 : 查看 http://docs.python.org/library/shlex ) 





的 ， 所 以 除了 这 些 变 化 之 外 ， 不 需要 额外 的 工作 。 现 


、^ 和 ~。 





与 








E Python 解释 器 是 用 C 语言 编 








Jython 是 (大 部 分 ) 标准 Python 解释 器 的 Java 实现 ， 标 ; 





的 





5 























因此 它 的 另 一 个 名 字 为 CPython。Jython 是 字 节 编译 的 ， 以 ; 
并 非 一 个 直接 移植 的 产物 ，Jython 的 创建 者 认识 到 Java 有 它 自 己 的 内 存 管理 





运行 于 Java 虚拟 机 JVM) 
和 异常 处 理 框 架 ， 
行 编号 ， 也 就 是 说 ，Jython 2.5 

















1 
H 


























Y 











所 以 这 些 语言 特性 并 不 需要 移植 。Jython 版 本 以 特定 的 兼容 性 
































兼容 CPython 2.5。 最 初版 本 的 Jython 命名 为 JPython, 人 











已 后 来 被 Jython 取代 。 可 以 在 











http://wiki.python.org/jython/JythonFaq/GeneralInfo .| 








上 的 Jython 在 线 FAQ 找到 更 多 信息 。 
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附录 B BER 


名 单 上 的 其 他 任何 人 有 意见 吗 ? 我 应 该 改变 这 门 语言 吗 ? 
一 一 Guido van Rossum, 1991 年 12 月 


B.1 Python 关键 字 


表 B-1 列举 了 Python 的 关键 字 。 
表 B-1 Python 关键 字 ” 





© 























and as assert” break 
class continue def del 
elif else except exec” 
finally for from global 
if import in is 
lambda nonlocal” not or 
pass print” raise return 
try while with” yield" 


@ Python 2.4 中 None 变 成 了 常数 ，Python 3.0 H 


@ Python 2.6 中 新 增 。 
@ Python 1.5 中 新 增 。 








© 变 成 了 内 置 函 数 ，Python 3.0 中 作为 关键 字 移 除 。 


@ Python 3.0 中 新 增 。 
(8 Python 2.3 中 新 增 。 











H None. True. False 变 成 了 关键 字 。 
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B.2 Python 标准 操作 符 和 函数 


表 B-2 代表 操作 符 和 函数 (内 置 和 工厂 )， 它 们 可 以 用 于 大 多 数 标准 的 Python 对 象 和 用 
户 自 定义 对 象 ， 在 自 定义 对 象 中 实现 了 它们 对 应 的 特殊 方法 。 




































































表 B-2 标准 类 型 操作 符 和 函数 

















































































































操作 符 / 函 数 描述 AR 
字符 串 表 示 
iu 一 种 可 以 计算 的 字符 串 表示 str 
内 置 和 工厂 函数 
emp(obj1, obj2) 比较 两 个 对 象 int 
repr(obj) 一 种 可 以 计算 的 字符 串 表 示 str 
str(obj) 可 打印 的 字符 串 表示 str 
type(obj) 对 象 类 型 type 
值 比较 
< 小 于 bool 
> 大 于 bool 
<= 小 于 或 等 于 bool 
>= 大 于 或 等 于 bool 
== 等 于 bool 
l= 不 等 于 bool 
I»? 不 等 于 bool 
对 象 比较 
is 相同 于 bool 
is not 不 同 于 bool 
布尔 操作 符 
not 逻辑 非 bool 
and 逻辑 与 bool 
or 逻辑 或 bool 

















CD 布尔 比较 返回 True 或 False. 
@ Python 3.0 中 移 除 ， 替 换 为 =。 
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B.3 ”数值 类 型 操作 符 和 函数 




















































































































































































































K B-3 列举 了 应 用 于 Python 数值 对 象 的 操作 符 和 函数 (内 置 和 工厂 )。 
表 B-3 ”所 有 数值 类 型 操作 符 和 内 置 函 数 
操作 符 / 内 置 描述 int long’ float complex A RO 

abs() 绝对 值 number” 
bin 二 进 制 字符 串 str 
chr() 字符 str 
coerce() 数值 强制 转换 . tuple 
complex() 复杂 工厂 函数 。 complex 
divmod() 除法 / 求 模 E tuple 
float() 浮 点 型 工厂 函数 . float 
hex() 上 六 进 制 字符 串 Str 
int() int 工厂 函数 int 
long)? long 工厂 函数 . long 
oct() 八进制 字符 串 str 
ord() 序数 B int 
pow() Dies . number 
round() 浮 点 数 取 整 . float 
sum) ? 求 和 。 float 
de RKE 。 number 
r 没 变化 number 
-d 取 负 。 number 
~d 位 反 转 int/long 
dee Dies . number 
* 乘法 s number 
/ 经 典 除法 或 真 除 . number 

法 
Il 向 下 除法 。 number 
% 取 模 / 求 余数 number 
* 加 法 number 
减法 . number 
«« 位 左 移 int/long 
>> 位 右 移 int/long 
& 接 位 与 int/long 
^ 接 位 异 或 int/long 

接 位 或 int/long 
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CD Python 3.0 移 除了 long 类 型 ， 而 用 























int RË. 


@“ 数 值 ”结果 表明 任何 数值 类 型 ， 可 能 与 操作 数 相 同 。 


@ Python 2.3 中 新 增 。 





D 六 与 一 元 操作 符 有 一 种 独特 的 关系 。 


© 一 元 操作 符 。 


B.4 








操作 符 内 置 函 数 或 方法 


月 于 序列 类 型 的 操作 符 、 函 数 《〈 内 置 和 了 





ak B-4 


序列 类 型 操作 符 和 函数 


表 B-4 包含 一 整套 可 月 


序列 类 型 操作 


str 


符 、 函 数 和 内 置 方法 
list 





LJ o 和 内 置 方法 。 


tuple 








[]《〈 创 建 列 表 ) 





O 








append() 





capitalize() 





center() 





chr() 





cmp() 





count() 





decode() 





encode() 





endswith() 





expandtabs() 





extend() 





find) 





format() 





hex() 





index() 





insert() 





isalnum() 





isalpha() 





isdecimal() 





isdigit() 





islower() 





isnumeric() 
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( 续 表 ) 
操作 符 内 置 函 数 或 方法 str list tuple 
isspace() . 
istitle() . 
isupper() . 
join) . 
len() . 
list() . 
ljust() . 
lower() . 
Istrip() : 
max() . 
min() . 
oct() . 
ord() s 
partition() 2° 
popO 
raw input() 。 
remove() 
replace() . 
repr) . 
reverse() 
rfind() . 
rindex() 。 
rjust() . 
rpartition() Q9 
rsplit() 9 
rstrip() : 
sort() 
split() . 
splitlines() 。 
startswith() . 
str() $ 
strip) . 
swapcase() . 
title() . 
translate() . 
tuple() . 
typeO s 
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(BER) 
操作 符 内 置 函 数 或 方法 str list tuple 
upper() : 
zfill() 2° 
“(属性 ) . 
[]《〈 切 片 ) 
[E] . 
* 3 
% : 
+ ¢ 
in . 
not in . 
@ Python 2.6 中 新 增 (tuple 的 第 一 批 方法 ) 。 
@ Python 2.x 中 仅仅 用 于 Unicode 字符 串 ，Python 3.0 中 “新 增 ”。 




















(3) Python 2.5 中 新 增 。 





(4) Python 2.4 中 新 增 。 





© Python 2.2.2 中 新 增 。 
B.5 ”字符 串 格式 化 操作 符 转 换 符号 
格式 操作 符 (%) 的 格式 化 符号 。 
表 B-5 字符 串 格式 化 操作 符 转 换 符号 




















Tn 











K B-5 列 出 了 可 用 于 字符 


















































































































































格式 化 符号 转换 

Joc 字符 〈 整 数 [ASCII 值 ] 或 长 度 为 1 的 字符 串 ) 
Jor” 格式 化 之 前 通过 reprO 进 行 字符 串 转换 

%s 格式 化 之 前 通过 str0 进 行 字符 串 转 换 

qd 或 %i 有 符号 十 进 制 整数 

Jou" 无 符号 十 进 制 整数 

%0” (无 符号 ) 八进制 整数 

wx MIX” (无 符号 ) 十 六 进 制 整数 〈 小 写 或 大 写字 母 ) 
he RUE 指数 符号 〈 小 写 e 或 大 写 E) 

%f 或 %F 浮 点 实数 (自动 截断 小 数 ) 

%g 或 %G Joe 和 %f 或 %E% 和 %F% 的 简短 写法 

%% 非 转 义 的 百 分 号 字符 〈%) 




















(D Python 2.0 中 新 增 ， 似 乎 只 有 Python 中 才 有 。 


@ 在 Python 2.4+ 中 ，int 型 负数 的 %u 或 %o 或 %X 返回 一 个 有 符号 字符 有 














pun 
o 
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B.6 字符 串 格 式 化 操作 符 指 令 
当 使 用 字符 串 格式 化 操作 符 〈 见 表 B-5) 时 ， 可 以 利用 表 B-6 中 的 指令 增强 或 调整 对 象 

















表 B-6 格式 化 操作 符 辅 助 指令 








































































































































































































符号 功能 

= 使 用 左 对 齐 

* 为 正 数 使 用 加 号 (+) 

<sp> 为 正 数 使 用 空格 填充 

# 根据 是 否 使 用 x 或 X， 添 加 八进制 前 导 零 COD 或 十 六 进 制 前 导 Ox 或 0X 
0 当 格 式 化 数字 时 使 用 零 〈 而 不 是 空格 ) 填充 

% %% 提 供 一 个 音符 号 % 

(var) 映射 变量 (字典 参数 ) 

m.n m 是 最 小 总 宽度 ，n 是 小 数 点 后 面 要 显示 的 数字 的 位 数 〈 如 果 合 适 ) 




















K B-4 描述 的 字符 串 内 置 方 法 如 表 B-7 所 示 。 

















表 B-7 字符 串 类 型 内 置 方法 
方法 名 描述 

































































string.capitalize() 字符 串 的 第 一 个 字母 大 写 
string.center(width) 返回 一 个 共 width 列 、 填 充 空 格 的 字符 串 ， 原 始 字符 串 处 于 其 中 心 位 置 
string.count(str, beg=0, end-len(string)) 统计 str 在 string 中 出 现 的 次 数 ， 如 果 给 定 了 开始 索引 beg 和 结束 索引 end, 


























将 统计 str 在 string 的 子 串 中 出 现 的 次 数 
string decode(encoding="UTE-8, 'errors-'strict') 返回 string 的 解码 字符 串 版 本 ;如果 发 生 错误 ， 默 认 情况 下 会 抛 出 一 个 
ValueError 异常 ， 除 非 通过 ignore 或 replace 给 出 了 errors 








五 





















































































































































string.encode(encoding='UTF-8', ‘errors='strict )) 返回 string 的 编码 字符 串 版 本 ， 如 果 发 生 错误 ， 默 认 情 况 下 会 抛 出 一 个 
ValueError 异常 ， 除 非 通过 ignore 或 replace 给 出 了 errors 

string.endswith(str, beg-0, end=len(string))” 确定 string 或 string 的 子 串 《如 果 给 出 了 开始 索引 beg 和 结束 索引 end) 2A 
以 str 结尾 ， 如 果 是 则 返回 True， 和 否则 返回 False 

string.expandtabs(tabsize=8) 在 string 中 扩展 制 表 符 为 多 个 空格 ， 如 果 tabsize 没 提供 ， 默 认 情 况 下 每 个 制 
表 符 为 8 个 空格 

string.find(str, peg=0, end-len(string)) 确定 str 是 否 出 现在 string 中 ; 如 果 给 定 了 开始 索引 beg 和 结束 索引 end, M 
会 确定 sr 是否 出 现在 string 的 子 串 中 ;如 果 发 现 则 返回 索引 ， 否 则 返回 -1 
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方法 名 


(BER) 
描述 





string.format(*args, **kwargs) 








根据 传 入 的 args 和 /或 kwargs 进行 字符 串 格式 化 








string.index(str, beg=0, end-len(string)) 





与 find0 相 同 ， 但 如 果 未 找到 str， 则 会 抛 出 一 个 异常 














string.isalnum() ^^ 























n 





True 





IR string 中 至 少 含有 1 个 字符 并 且 所 有 字符 都 是 字母 数字 ， 那 么 返 
i 则 返回 Fals 





IM 














(o9 


string isalpha() 























如 果 string PELEA 1 个 字符 并 且 所 有 字符 都 是 字母 ， 那 么 返回 True 否则 





























string.isdecimal) ” 














返回 False 
Ui 











0 果 string 只 包含 十 进 制 数 则 返回 True， 否 则 返回 False 




















@® 


string isdigit() 




















0 果 string 只 包含 数字 则 返回 True, AMIE] False 














strin gislower() ^? 





























Ei 
WIR string 包含 至 少 1 个 区 分 大 小 写 的 字符 并 且 所 有 区 分 大 小 写 的 字符 都 是 小 
写 的 ， 则 返回 True， 和 否则 返回 False 




















ew 


string .isnumeric() 


如 果 string 只 包含 数字 字符 则 返回 True 否则 返回 False 




















string.is space() ^ 
































如 果 string 只 包含 空格 字符 则 返回 True 否则 返回 False 














string istitle() ^ 














如 果 string 是 适当 “标题 大 小 写 风格 ”( 见 title0) 则 返回 True, 否则 返回 False 























string isupperQ ^ 























WIR string 包含 至 少 1 个 区 分 大 小 写 的 字符 并 且 所 有 区 分 大 小 写 的 字符 都 是 大 
写 的 ， 则 返回 True, BWE False 














string.join(seq) 

















将 seq 序列 中 的 元 素 字 符 串 表示 合并 (连接 ) 到 一 个 字符 串 ，string 作为 分 隔 符 











string.ljust(width) 




















string.lower() 














名 

4 
返回 一 个 空格 填充 的 string， 原 始 字符 串 在 总 列 数 为 width 的 空间 中 左 对 齐 
6 string 中 所 有 的 大 写字 母 转换 为 小 写字 母 





string lstrip() 








除 string 中 的 所 有 前 置 空格 








string.replace(strl, str2, num=string.count(str1)) 
































str2 AK string 中 出 现 的 所 有 str1， 或 者 最 多 num 个 (如 果 给 定 了 num) 








string.rfind(str, beg=0, end-len(string)) 





与 find 0 相同 ， 但 在 string 中 向 后 搜索 








string .rindex( str, beg=0, end-len(string)) 





与 index0 相 同 ， 但 在 string 中 向 后 搜索 





string rjust(width) 











返回 一 个 空格 填充 的 string， 原 始 字 符 串 在 总 列 数 为 width 的 空间 中 右 对 齐 














string.rstrip() 














IER string 中 所 有 的 尾部 空 





nn 


string.split(strz"", num=string.count(str)) 














根据 分 隔 符 str 如果 没 提供 ， 默 认为 空格 ) 分 割 string 并 返回 子 串 的 列表 ; 
果 给 定 了 num， 则 最 多 分 为 num 个 子 串 

















= 








string .splitlines(num=string.count(‘\n')) id 














E 























ENA num) 换行 处 分 割 string 并 返回 一 个 删除 换行 符 后 每 行 的 列表 

















string.startswith(str, beg=0, end-len(string)) e 

















确定 string RETE IRAE TARRI beg 和 结束 索引 end) 是否 以 子 串 
str 开始 ， 若 是 则 返回 True, BRE False 












































string.strip([obj]) 





对 string 执行 lstrip0 和 rstrip0 操 作 





string.swapcase() 

















反 转 string 中 所 有 字母 大 小 写 





20 


string.titleQ ~ 

















返回 string 的 “标题 大 小 写 风格 ”版 本 ， 即 所 有 单词 都 以 大 写字 母 开 始 ， 而 其 
余 字母 小 写 〈 另 外 参见 istitleO) ) 














nm 


string.translate(str, del="") 

















根据 翻译 表 str (256 个 字符 ) 翻译 string， 并 删除 del 字符 串 中 的 内 








m 





string.upper() 











将 string 中 的 小 写字 母 转换 为 大 写字 母 








string.zfill(width) 

















返回 左 填充 0 并 且 总 字符 数 为 width 的 原始 字符 串 ， 用 于 数字 ，zfill0 保 留任 
何 给 定 的 符号 〈 少 一 个 0) 















































QD 在 1.6 版 本 只 适用 于 Unicode FKP, 但 
































适用 于 2.0 版 本 中 的 所 有 字符 串 类 型 。 








Q) 1.5.2 版 本 中 没有 string 模块 功能 。 





@ 在 Python 2.1 c 中 新 增 。 








P 




















© 仅 适 用 于 Unicode FE. 
© 在 Python 2.2e。 中 新 增 。 











B.8 列表 类 型 内 置 方法 








表 B-8 给 出 了 表 B-4 中 给 



































8 的 列表 内 置 方法 的 完整 描述 和 使 用 语法 。 
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X B-8 列表 类 型 内 置 方法 
























































































































































列表 方法 操作 
list.append(obj) 将 obj 添加 到 list 末尾 
list.count(obj) 返回 obj 在 list 中 出 现 的 次 数 
list.extend(seq)” 将 seq 的 内 容 附加 到 list 中 
list.index(obj, i=0, j-len(list)) 返回 使 list[KJ==obj 和 i 三 =k<j 同时 成 立 的 最 小 索引 kk， 否则 抛 出 ValueError 异常 
list.insert(index, obj) 将 obj 插入 list 中 的 偏 移 量 index 处 
list.pop(index=-1)° 从 list 中 删除 并 返回 在 给 定 或 最 后 索引 处 的 obj 
list.remove(obj) AK list 中 删除 对 象 obj 
list.reverse() 按 顺序 反 转 list 中 的 对 象 
list.sort(func=None, key=None, | 利用 可 选 的 比较 函数 func 排序 列表 成 员 ， 当 提取 要 排序 的 元 素 时 key 是 一 个 回调 ， 并 且 如 果 


reverse=False) 





(D Python 1.5.2 中 新 增 。 





reverse 标记 为 True， 则 list 将 以 倒序 排序 











BQ 字典 类 型 内 置 方法 











方法 名 


表 B-9 列 出 了 字典 内 置 方法 


的 完整 描述 和 使 | 


表 B-9 字典 类 型 方法 

















j 语 法。 


操作 





dict.clear^() 


删除 dict 中 的 所 有 元 素 





dict.copy 0O 








BE 








dict 





的 一 份 〈 浅 ) PHN 





dict.fromkeys (seq, val=None) 





Geb IS 
初始 值 若 没 给 定 ， 则 默认 为 None) 














个 新 字典 


Hg 
































h seg 的 元 素 作 为 字典 的 键 ，val 作为 所 有 键 对 应 的 








dict.get(key, default=None) ® 








对 于 











E key 返回 其 对 应 的 值 , 或 者 若 dict PRE key MIRE 
的 默认 值 为 None) 











default (注意 , default 











dict.has_key(key)” 











如 果 key 存在 于 dict 4 
操作 符 部 分 蔡 











P 则 返 





H 








尺 ， 但 是 仍旧 提供 








True, 否则 返 世 
一 个 功能 接 





False; 在 Python2.2 中 被 mn 和 not in 


























dict.items() 

















返回 dict 的 (key, value) 元 组 对 的 一 个 迭代 版 本 ” 
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(BER) 
方法 名 操作 

dict.iter 0 iteritems()、iterkeys()、itervalues0 都 是 行为 与 它们 的 非 迭 代 器 版 本 相同 的 方法 ， 
但 是 返回 一 个 迭代 器 ， 而 不 是 一 个 列表 

dict.keys() 返回 dict 所 有 键 的 一 个 迭代 版 本 

dict.pop° (key[,default]) 类 似 于 get0， 但 删除 并 返回 dict[key]( 如 果 给 定 了 key); WA key 不 存在 于 dict 
中 且 未 给 出 default, WILH KeyError 异常 

dict.setdefault(key, default2None)^ 类 似 于 get0， 但 如 果 key 不 存在 于 dict 中 ， 则 设置 dict[key]-default 

dict.update(dict2)” 将 dict2 中 的 键 值 对 添加 到 dict 中 

dict.values() 返回 dict 中 值 的 一 个 迭代 版 本 

















@ Python 1.5 中 新 
@ Python 2.3 中 新 
@) Python 2.2 中 新 


@ Python 2.0 中 新 























© Python 2.2 中 弃 用 ，Python 3.0 中 移 除 ， 用 in RE. 
© 在 Python 3.0 中 迭代 版 本 是 一 组 视图 ， 而 在 之 前 所 有 版 本 中 它 是 一 个 列表 。 


B.10 集合 类 型 操作 符 和 内 置 函 数 


表 B-10 列 出 了 各 种 操作 符 、 函 数 〈 内 置 和 工厂 〉 以 及 应 用 于 两 种 集合 类 型 (set[ 可 变 的 ] 
和 frozenset[ 不 可 变 的 ]) 的 内 置 方法 。 













































































表 B-10 集合 类 型 操作 符 、 函 数 和 内 置 方法 





























































































































函数 /方法 名 等 效 操作 符 描述 

所 有 集合 类 型 

len(s) 集合 基数 : s 中 元 素 的 数量 

set([obj]) 可 变 集合 工厂 函数 ， 如 果 给 出 了 obj， 那么 它 必 须 是 可 迭代 的 ， 并 且 新 的 元 素 取 

obj; 如 果 没 有 给 出 ， 则 创建 一 个 空 集合 

frozenset ([obj]) ` 可 改变 的 集合 工厂 函数 ; 除了 返回 不 可 改变 的 集合 之 外 ， 其 他 运作 方式 与 set0 相 同 
obj in s RAMA: obj 是 s 的 一 个 元 素 吗 
obj not in s 非 成 员 测 试 : obj 不 是 s 的 一 个 元 素 吗 
saat 等 价 测试 : s 和 1 拥有 完全 相同 的 元 素 吗 
sl=t ` 等 价 测试 ， 与 == 相 反 
s<t (严格 的 ) 子 集 测 试 : stor H s 的 所 有 元 素 都 是 1 的 成 员 
s<=t 子 集 测 试 〈 人 允许 不 适当 的 子 集 ): s 的 所 有 元 素 都 是 上 的 成 员 

iri me (严格 的 ) 超 集 测试 ，s!= 1 Hr KATARE s 的 成 员 
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CRK) 
函数 /方法 名 等 效 操作 符 描述 
s.issuperset(r) s>=t 超 集 测试 〈 人 允许 不 适当 的 超 集 ): 上 所 有 的 元 素 都 是 s 的 成 员 
s.union(f) s|t 并 操作 : s 或 1 中 的 元 素 
s.intersection(f) s&t 交 操 作 : s 和 z 中 的 元 素 
s.difference(t) sot MES FEF s 中 且 不 存在 于 1 中 的 元 素 。 
s.symmetric difference(t) | st 对 称 差 操作 : 仅仅 存 在 于 s 和 1 二 者 之 一 中 的 元 素 
s.copy() 复制 操作 : 返回 s 的 ( 浅 ) 复制 
s.update(r) set (联合 ) 更 新 操作 : 把 : 中 成 员 添加 到 * 中 
s.intersection_update() | s&-t 交 更 新 操作 : s 仅仅 包含 原始 s 5 t 的 成 员 
s.difference update(r) s-=t 差 更 新 操作 : s 仅仅 包含 s 中 不 存在 于 1 中 的 原始 成 员 
s.symmetric difference u | s^=t 对 称 差 更 新 操作 : s 只 包含 原始 s 和 1 二 者 之 一 中 的 成 员 
pdate() 
s.add(obj) 添加 操作 : 将 obj 添加 到 * 中 
s.remove(obj) 删除 操作 : 从 中 删除 oo; 如果 obj 不 存在 于 s 中 ， 则 抛 出 Key-Error 异常 
s.discard(obj) 丢弃 操作 : remove0) 的 更 友好 版 本 ， 如 果 obj 存在 于 s 中 ， 则 从 s 中 移 除 obj 
s.popO 弹出 操作 : 删除 并 返回 s 中 的 任意 元 素 
s.clear() 清除 操作 : 删除 s 的 所 有 元 素 
B.11 文件 对 象 方法 和 数据 属性 
3e B-11 列 出 了 文件 对 象 的 内 置 方法 和 数据 属性 。 
表 B-11 文件 对 象 方法 
文件 对 象 属性 描述 
file.close() 关闭 file 
file.fileno() 返回 file 的 整数 文件 描述 符 
file.flush() 冲刷 file 的 内 部 缓冲 器 
file.isatty() 如 果 file 是 一 个 类 tty 设备 ， 则 返回 True; 否则 返回 False 
file.next?() 返回 file 中 的 下 一 行 (类似 file.readline0), Ebr c 9 e fr WU Hh Stoplteration 异常 
读 取 文件 中 的 size 个 字 节 ， 如 果 size 未 给 出 或 为 负数 ， 则 读 取 所 有 剩余 的 字 节 ， 作 为 一 个 字符 串 
file.read(size=-1) RE 
































file.readinto" (buf, size) 从 file 中 读 取 size 个 字 节 到 缓冲 器 buf 中 (不 支持 ) 
file.readline(size=-1) 从 file 中 读 取 并 返回 一 行 ( 包 括 行 结束 字符 )， 为 一 整 行 或 size 字符 的 最 大 值 




















file.readlines(sizhint=0) 从 file 中 读 取 所 有 行 并 作为 一 个 列表 (包括 所 有 行 终止 符 ) 返回 ; 如 果 给 定 了 sizhint Jf H. sizhint > 
0， 则 返回 由 大 约 sizhint 个 字 节 《可 以 向 上 圆 整 到 下 一 个 缓冲 器 的 值 ) 组 成 的 整个 行 


file.xreadlines^() 用 于 和 迭代， 返回 file 中 的 行 ， 它 作为 块 以 一 种 比 readlines0 更 有 效 的 方式 读 取 
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(BER) 
文件 对 象 属性 描述 
file.seek(off, whence=0) 移动 到 file 中 的 某 个 位 置 ， 从 whence 的 off 字 节 的 偏 移 量 处 (0 表示 文件 的 开始 ，1 表示 当前 位 
置 ，2 表示 文件 末尾 ) 
file.tell() 返回 file 内 的 当前 位 置 
file.truncate(size-filetell) | 以 最 多 size 字 节 来 截断 file， 默 认为 当前 文件 位 置 
file.write(str) 向 file 中 写 入 字符 串 str 
file.writelines(seq) 将 字符 串 seq 写 入 file P; seq 应 该 是 一 个 可 迭代 产生 的 字符 串 ; 在 Python 2.2 版 本 之 前 ， 它 仅仅 
是 一 个 字符 串 列表 
file.closed 如 果 file 关闭 了 则 为 True; 否则 为 False 
file.encoding® 这 个 文件 使 用 的 编码 ， 当 向 file 中 写 入 Unicode FSET, EH file.encoding 将 它们 转换 为 字 节 
字符 串 ， 值 None 表示 应 该 使 用 系统 默认 的 编码 方式 来 转换 Unicode 字符 串 
file.mode FIF file 的 访问 模式 
file.name file 名 称 
file.newlines^ 如 果 没 有 读 取 到 行 分 隔 符 则 为 None， 和 否则 为 一 个 由 一 种 类 型 的 行 分 隔 符 组 成 的 字符 串 ， 或 一 个 
包含 当前 读 取 的 行 终止 符 所 有 类 型 的 元 组 
file.softspace 如 果 print 明确 要 求 空格 则 为 0， 否则 为 1， 很 少 供 程序 员 使 用 ， 通 常 只 供 内 部 使 
QD Python 2.2 中 新 增 。 
@ Python 1.5.2 中 新 增 ， 但 目前 已 不 支持 。 
(8 Python 2.1 中 新 增 ，Python 2.3 中 弃 
@ Python 2.3 中 新 增 。 
B.12 Python 异常 
表 B-12 列 出 了 Python 中 的 异常 。 
$ B-12. Python 内 置 异常 
异常 名 称 描述 
BaseException^ 所 有 异常 的 基 类 
SystemExit^ Python 解释 器 请 求 终止 
KeyboardInterrupt^ 户 中 断 执行 〈 通 常 通过 按 Ctrl + C 组 合 键 ) 
Exception” 常用 异常 的 基 类 
StopIteration® 迭代 没有 更 多 值 





GeneratorExit ^ 


发 送 到 生成 器 令 其 停止 的 异常 





























SystemExit® Python 解释 器 请 求 终止 
StandardError® 所 有 标准 内 置 异常 的 基 类 
ArithmeticError^ 所 有 数值 计算 错误 的 基 类 
FloatingPointError^ 浮 点 计 中 的 错误 

OverflowError 计算 结果 超出 数值 类 型 最 大 限制 








异常 名 称 
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描述 


( 续 表 ) 


































































































































































































































































































ZeroDivisionError MER BORED 错误 (所 有 数值 类 型 ) 
AssertionError assert 声明 失败 

AttributeError 没有 这 种 对 象 属性 

EOFError 没有 从 内 置 输 入 就 到 达 了 文件 末尾 标志 
EnvironmentError 操作 系统 环境 错误 的 基 类 

IOError 输入 /输出 操作 失败 

OSError 操作 系统 错误 

WindowsError MS Windows 系统 调用 失败 

ImportError 导入 模块 或 对 象 失败 
KeyboardInterrupt^ 户 中 断 执行 〈 通 常 通过 按 Ctrl + C 组 合 键 ) 
LookupError ^ 无 效 数据 查找 错误 的 基 类 

IndexError Hp rst ioc pd S| 

KeyError Uu rnt oc e 

MemoryError 内 存 不 足 错 误 (对 Python 解释 器 来 说 非 致命 ) 
NameError 未 声明 /未 初始 化 的 对 象 〈 非 属性 ) 
UnboundLocalError 访问 一 个 未 初始 化 的 局 部 变量 
ReferenceError 弱 引 用 试图 访问 一 个 垃圾 回收 的 对 象 
RuntimeError 执行 过 程 中 的 通用 默认 错误 
NotImplementedError 未 实现 的 方法 

SyntaxError Python 语法 错误 

IndentationError 不 适当 的 缩 进 

TabError ^ 不 当 的 制 表 符 和 空格 

SystemError 通用 解释 器 系统 错误 

TypeError 类 型 的 无 效 操作 

ValueError 给 定 了 无 效 参数 

UnicodeError^ Unicode 相关 错误 

UnicodeDecodeError 解码 过 程 中 的 Unicode 错误 
UnicodeEncodeError 编码 过 程 中 的 Unicode 错误 
UnicodeTranslateError^ 转换 过 程 中 的 Unicode 错误 

Warning ^ 所 有 警告 的 基 类 

Deprecation Warning" 弃 用 特性 的 警告 

FutureWarning” 警告 在 未 来 将 会 改变 语义 的 结构 
OverflowWarning” 动 长 时 间 升 级 的 旧 警 告 





PendingDeprecationWarning” 











ARE RF H EAS 


的 警告 








[0] 























RuntimeWarning " 可 疑 运行 时 行为 相关 的 警告 
SyntaxWarning” 可 疑 语法 相关 的 警告 





. ® 
UserWarning 



































户 代 码 产 生 的 警告 
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(D Py 
@ Py 
© Py 


hon 2.5 中 新 增 。 





hon 2.5 之 前 版 本 中 ，SystemExi 





hon 2.5 之 前 版 本 中 ，KeyboardInterrupt 











t 继承 





Exception 。 











StandardError。 





























@ Python 1.5 H% 
© Py 
© 4X. 
@ Py 
Py 
Q Py 
Py 
@ py 


UB, AE 
hon 2.2 中 新 增 。 


























仅 用 于 Python 1.5~2.4.x. 
hon 2.0 中 新 


hon 1.6 中 新 





hon 2.1 中 新 














曾 
曾 
hon 2.3 中 新 增 。 
曾 
曾 


hon 2.2 中 新 





于 类 的 异常 替换 字符 串 时 发 布 的 版 本 。 








， 但 Python 2.4 H 


B.13 类 的 特殊 方法 





X B-13 列 出 了 特殊 方法 集合 ， 通 过 实现 它们 ， 人 允许 用 户 自 定义 对 象 


型 的 行为 和 功能 。 


FP 移 除 。 


#B13 自 定义 类 的 特殊 方法 























Uff Python 标准 类 













































































特殊 方法 描述 
基本 自 定义 
C. init. (self[, argl, ...]) 构造 函数 〈 附 带 任何 可 选 参数 ) 
C. new. (selfi, arg, ...1)” 构造 函数 (附带 任何 可 选 参 数 )， 通 常用 于 创建 不 可 变数 据 类 型 的 子 类 
C. del (self) 析 构 函数 
C. str (self) 可 打印 字符 串 表 示 ; str0 内 置 方法 和 print 语句 











C. repr (self) 

















可 计算 字符 串 表 示 ; repr() 


A 置 方法 和 ”操作 符 





C. . unicode (self)" 








Unicode 字符 串 表示 ; reprO 内 置 方法 和 ”操作 符 





C. call (self, *args) 

















表示 可 调用 的 实例 











C. nonzero (self) 








为 对 象 定义 False ffi; bool0 内 置 方法 〈 














版 本 2.2 起 ) 





C. len (self) 




















类 ); len0 内 置 方法 


“Length” CEHJ 





HR (BD 比较 





C. emp (self, obj) 





对 象 比较 ， cmpO 内 置 方法 





C. lt (self, obj) FI C. le (self, obj) 





< 和 <= 操 作 符 


小 于 /小 于 或 等 于 ; 



































C. gt (self, obj) 和 UC. ge (self, obj) 大 于 /大 于 或 等 于 ，> 和 >= 操 作 符 
C. eq (self,obj) FI C. ne (self, obj) 等 于 /不 等 于 ，==、!= 和 <> 操 作 符 
属性 

C. getatr — (self, attr) 获取 属性 ，getattr0 内 置 方法 
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(BER) 
特殊 方法 描述 

C. setattr (self, attr, val) 设置 属性 ; setattr0 内 置 方法 
C. delattr (self, attr) 删除 属性 ，del 语句 

C. getattribute_ (self, attr)” 获取 属性 ;getattr0 内 置 方法 
C. get (self,attr) 获取 属性 ; getattr0 内 置 方法 
C. set (self, attr, val) 设置 属性 ; setattr0 内 置 方法 
C. delete (self, attr) 删除 属性 ，del 语句 

















自 定义 类 /模拟 类 型 

















数值 类 型 ， 二 进 制 操作 符 





C. *add (self, obj) 


加 法 ; + 操作 符 





C. *sub (self, obj) 


减法 ，- 操 作 符 





C. *mul (self, obj) 


乘法 ，* 操 作 符 





C. *div (self, obj) 


除法 ，/ 操 作答 





C. *truediv_ (self, obj)? 


真 除法 : /操作 符 





C. *floordiv (self, obj)” 


向 下 除法 ，V/ 操 作 符 





C. *mod (self, obj) 


模 /余数 ，% 操 作 符 





C. *divmod (self, obj) 


除法 和 模 运 算 ，divmodO 内 置 方法 





C. *pow. (self, objl, mod]) 


Rae; powOA BAI; ** 操 作 符 





C. "lshift. (self, obj) 


左 移 ;<< 操 作 符 





C.__*rshift__(self, obj) 


右 移 ，>> 操 作 符 





C. *and (self, obj) 


位 与 ，&& 操 作 符 





C. *or (self, obj) 


位 或 ，| 操 作 符 





C. *xor (self, obj) 


位 异 或 ，^ 操 作 符 





数值 类 型 : 一 元 操作 符 





C. neg (self) 


一 元 非 





C. pos (self) 


一 元 无 变化 





数值 类 型 : 一 元 操作 符 





C. abs (self) 


绝对 值 ，absO 内 置 方法 





C. invert (self) 


位 倒置 ，~ 操 作 符 





数值 类 型 : 数值 转换 





C. complex (self, com) 


转换 成 复数 ，complex0 内 置 方法 





C. int (self) 


转换 成 int 类 型 ，intO 内 置 方法 





C. long (self) 








转换 成 long 类 型 ，longO 内 置 方法 
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(AER) 





特殊 方法 


描述 





C. float (self) 


转换 成 float; floatO V] BITE 





数值 类 型 : 基础 表示 (FAH) 





C. oct (self) 














八进制 表示 ; oct0 内 置 方法 








C. hex (self) 














十 六 进 制 表示 ; hex0 内 置 方 法 





数值 类 型 : 数值 强制 转换 





C. coerce (self, num) 


强制 转换 为 相同 的 数值 类 型 ，coerce() 内 置 方法 





序列 类 型 ” 





C. len (self) 

















序列 中 条 目的 数量 














C. getitem (self, ind) 


得 到 单个 序列 元 素 





C. setitem (self, ind, val) 


设置 单个 序列 元 素 





C. delitem (self, ind) 








删除 单个 序列 元 素 





C. getslice (self, indl, ind2) 


获取 序列 切片 





C. setslice (self, il, i2, val) 


获取 序列 切 











片 
出 除 序 列 切片 




















C. delslice (self, indl, ind2) 

C. contains (self, val)? 测试 序列 成 员 ，in 关键 字 
C. *add (self, obj) HERE, + 操作 符 

C. *mul (self, obj) 复制 ，* 操 作 符 





C. iter (self) 





创建 迭代 器 类 ; iter0 内 置 方法 













































































映射 类 型 

C. len (self) 散 列 中 条 目的 数量 

C. hash (self) 散 列 函数 值 

C. getitem (self, key) 给 定 键 获取 对 应 的 值 
C. setitem (self, key, val) 给 定 键 设置 对 应 的 值 
C. delitem (self, key) 给 定 键 删 除 对 应 的 值 











仅仅 用 于 新 型 类 。 








(D Python 2.2 中 新 增 ; 








TEE 


@ Python 2.3 中 新 

















© 除了 cmp0 之 外 ， 其 他 所 有 都 是 Python 2.1 中 新 增 的 。 
(obj OP self) ， 或 者 “i” 表 示 就 地 操作 (Python 2.0 中 新 增 ) ， 即 “add_、 





Lu» 


四 “*?” 或 者 什么 都 没有 (self OP obj), “r 
. radd 或 iadd . 
© Python 2.2 中 新 增 。 








© Python 1.6 中 新 增 。 


B.14 Python 操作 符 汇总 





























K B-14 列 出 了 Python 操作 符 的 完整 集合 ， 
从 最 高 到 最 低 排 序 ， 共 享 相 同 阴影 组 的 拥有 相同 的 优先 级 。 











以 及 它们 适用 的 标准 类 型 。 


in 





操作 符 按 优先 级 


Operatora' 


表 B-14 Python 操作 符 一 元 的 ) 


int’ | long | float | complex 


str 


list 


dict 
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set, frozenset^ 





tuple 




























































































or 


QD 也 可 以 包括 相应 的 赋值 操作 符 。 

















D 涉及 布尔 类 型 的 操作 将 对 操作 数 进行 ， 例 如 ints.f。 


© AHD A 











类 型 都 是 Python 2.4 中 新 增 的 。 

















APPENDIX 





附录 C Python 3: 一 种 编程 语言 进 
化 的 产物 


Matz (Ruby 的 作者 ) 有 一 个 伟大 的 论证 ， 即 “开源 要 么 不 断 演 变 ， 要 么 消失 。” 
—— Guido van Rossum, 2008 年 3 月 
(在 PyCon 会 议 上 口头 论述 ) 


Python 3 代表 Python 语言 进化 的 一 个 产物 ， 所 以 它 不 会 执行 大 多 数 针对 Python 2.x 版 本 
解释 器 所 写 的 旧 代码 。 但 是 ， 这 并 不 意味 着 你 不 能 识别 旧 有 的 代码 ， 或 者 需要 广泛 的 移植 才 
能 使 日 代码 工作 于 3.x 版 本 下 。 事 实 上 ， 新 的 语法 与 过 去 的 语法 非常 相似 。 然 而 ， 因 为 print 
语句 在 新 版 本 中 不 再 存在 ， 所 以 它 很 容易 破坏 旧 有 的 代码 。 附 录 将 讨论 print 和 版 本 3.x 的 其 
他 变化 ， 并 且 将 着 重 强调 为 了 使 其 更 优秀 ，Python 必须 进行 的 一 些 改进 。 最 后 ， 我 们 给 出 了 
一 些 迁 移 工 具 ， 它 们 可 能 有 助 于 你 实现 这 一 转变 。 




















































































































C.1 为 何 Python 在 变化 














自从 Python 在 20 世纪 90 年 代 早 期 发 布 以 来 ，Python 目前 正经 历 最 重要 的 转变 。 即 使 
2000 年 时 版 本 从 1.x 到 2.x 的 转变 也 是 相当 缓和 的 ， 当 时 Python 2.0 能 够 正常 运行 1.5.2 版 本 
的 软件 。 在 过 去 数 年 里 ，Python 稳定 性 得 以 保持 的 主要 原因 之 一 就 是 ， 核 心 开 发 团队 保持 
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Python 后 向 兼容 性 的 坚定 决心 。 然 而, 多 年 以 来 , 创造 者 Guido van Rossum, Andrew Kuchling 
以 及 其 他 用 户 《 请 阅读 C.5 节 相 关 文章 的 链接 ) 发 现 了 某 些 “粘性 ”缺陷 《存在 于 不 同 版 本 
之 间 的 问题 ) 他 们 的 坚持 不 懈 使 得 这 一 点 很 明晰 , 即 需要 发 行 一 个 包含 重大 改变 的 版 本 以 确 
保 该 语言 的 明显 进化 。 在 2008 ERITH Python 3.0 版 本 ,标志 着 故意 打破 后 向 兼容 性 原则 的 
Python 解释 器 第 一 次 发 布 。 


C.2 都 发 生 了 哪些 变化 


Python 3 的 变化 并 不 是 令 人 难以 置信 的 ， 它 并 非 变 得 让 你 不 再 认识 Python。 本 附录 提供 
了 一 些 主要 变化 的 概述 : 

e print 变 成 了 print(); 

。 默认 情况 下 字符 串 会 转换 为 Unicode 编码 ; 

。 增加 了 一 个 单 类 (single class) 类 型 ; 

。 更 新 了 异常 的 语法 ; 

。 更 新 了 整数 ; 

。 KREDE. 


C.2.1 print 变 成 了 print() 


到 print0 的 转变 是 打破 了 最 大 数量 的 现存 Python 代码 的 一 个 变化 。 Python 中 为 什么 要 将 
其 从 一 条 语句 变化 成 一 个 内 置 函 数 BIF) 呢 ? 因为 将 print 作为 声明 会 在 很 多 方面 受到 限制 |， 
正如 Guido 在 他 的 “Python HR” (Python Regrets) 谈话 中 所 详 述 的 ， 他 列举 了 认为 是 这 门 
语言 缺点 的 方方面面 。 此 外 ，print 作为 一 条 语句 将 限制 对 它 的 改进 。 然 而 ， 当 printO 可 用 做 
一 个 函数 时 ， 就 可 以 添加 新 的 关键 字 参 数 ， 能 够 利用 关键 字 参 数 履 写 某 些 标准 行为 ， 并 且 也 
可 以 根据 需要 来 蔡 代 print0， 就 像 任 何其 他 的 内 置 函数 一 样 。 下 面 是 Python 改进 前 后 的 对 比 
示例 。 























































































































































































































































































































Python 2.x 


>> i721 
>>> print 'Python' 'is', 'number', i 


Pythonis number 1 
Python 3.x 


>> i721 
>>> print('Python' 'is', 'number', i) 


Pythonis number 1 
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在 上 面 的 例子 中 ， 我 们 故意 遗漏 了 Python 和 is 之 间 的 逗号 , 这 样 做 是 为 了 展示 字符 串 






















































































字面 里 连接 并 没有 改变 。 可 以 在 “Python 3.0 中 的 新 内 容 “(What's New in Python 3.0)” 文 
档 〈 可 以 参阅 C.3 节 ) 中 查看 更 多 示例 。 此 外 ， 可 以 在 PEP 3105 找到 关于 该 变化 的 更 多 
HB. 





C.2.2 字符 串 : 默认 为 Unicode 编码 


目前 Python 用 户 面 对 的 又 一 个 “陷阱 ”就 是 ， 字 符 串 现在 默认 为 Unicode 编码 。 这 种 变 
化 不 可 能 很 快 就 来 ， 当 处 理 Unicode 和 通常 的 ASCII 字符 串 时 , 无 数 的 Python 开发 人 员 遇 到 
这 种 问题 已 经 不 止 一 两 天 了 。 这 种 问题 看 起 来 如 下 所 示 。 


UnicodeEncodeError: 'ascii' codec can't encode character 
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u'\xae' in position 0: ordinal not in range (128) 


在 Python 3.x 中 这 种 类 型 的 问题 将 不 再 经 常 发 生 。 关 于 Python 中 使 用 Unicode 的 更 
多 信息 ， 可 以 查看 Unicode HOWTO 文档 (请 参阅 C.3 节 的 Web 地 址 )。 随 着 新 版 本 的 
Python 采用 了 这 种 模型 ， 用 户 将 不 再 需要 使 用 Unicode 和 ASCII/JE Unicode 字符 串 这 些 
ARR. “Python 3.0 中 的 新 内 容 ” CWhat's New in Python 3.00. 文档 相当 详细 地 总 结 了 这 种 
新 模型 。 

Python 3 使 用 了 文本 CtexO 和 《二 进 制 ) 数据 的 概念 ， 而 非 Unicode 字符 串 和 8 位 字符 
串 。 所 有 的 文本 都 是 Unicode 编码 的 。 然 而 ， 编 码 的 Unicode 表示 成 二 进 制 数据 。 用 来 保存 
文本 的 类 型 是 str， 而 用 来 保存 数据 的 类 型 是 bytes。 

关于 语法 ， 因 为 现在 默认 的 是 Unicode 编码 ， 所 以 前 导 u 或 U 已 经 充 用 。 同 样 地 ， 新 的 
字 节 对 象 需要 为 它 的 字面 里 (可 以 在 PEP 3112 找到 更 多 信息 ) 提供 一 个 b 或 B 前 置 。 
K C-1 比较 了 各 种 字符 串 类 型 ， 并 显示 了 它们 从 版 本 2.x 到 3.x 如 何 改变 。 表 C-1 还 包 
括 一 个 新 的 可 变 字 节 数组 (mutable bytearray) 类型。 

























































































































































































































































































表 C-1 Python 2 和 Python 3 中 的 字符 串 











Python 2 Python 3 是 否 可 变 
str("") bytes(b"") 否 
unicode(u"") str("") En 
N/A bytearray 是 








C.2.8 FRKA 

在 Python 2.2 之 前 ，Python 的 对 象 不 像 其 他 语言 中 的 类 : 类 是 “类 ”对 象 ， 而 实例 是 “ 实 
例 ” 对 象 。 这 与 人 们 普遍 理解 的 内 容 形成 鲜明 对 比 : 类 是 类 型 ， 而 实例 是 类 的 对 象 。 由 于 这 
种 “缺陷 ” 你 不 能 继承 数据 类 型 以 及 修改 它们 。 在 Python 2.2 中 ， 核 心 开发 团队 提出 了 一 种 
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新 型 的 类 ， 这 种 类 表现 起 来 更 像 人 们 所 期 望 的 那样 。 此 外 ， 这 种 变化 意味 着 常规 的 Python 类 
型 可 以 继承 了 ， 在 Guido 的 “Python 2.2 中 的 统一 类 型 和 类 ”(Unifying Types and Classes in 
Python 2.22 文章 中 描述 了 这 一 变化 。 然 而 ，Python 3 只 支持 这 种 新 型 的 类 。 
C.2.4 更 新 异常 的 语法 

异常 处 理 

在 过 去 ， 捕 获 异 常 的 语法 和 异常 参数 /实例 有 以 下 形式 。 

except ValueError, e: 
用 相同 的 处 理 程序 捕获 多 个 异常 ， 会 使 用 下 面 的 语法 。 

except (ValueError, TypeError), e: 


所 需 的 圆 括号 使 得 一 些 用 户 迷惑 ， 因 为 他 们 经 常 尝 试 编写 看 起 来 像 下 面 这 样 的 无 效 
代码 。 













































































































































































except ValueError, TypeError, e: 
新 的 as KEFEN Y BRA DSL ZA VR E P EE f TRU: 然而 ， 当 你 试图 使 用 相 
同 的 处 理 程序 捕获 一 种 以 上 的 异常 时 , 仍旧 需要 圆 括号 。 这 里 有 两 个 相同 功能 的 新 语法 例子 ， 
它们 展示 了 这 种 变化 : 


except ValueError as e: 
















































































except (ValueError, TypeError) as e: 


H Python 2.6 以 来 ， 之 后 发 行 的 2.x 版 本 在 创建 异常 处 理 程序 时 都 开始 接受 这 两 种 形式 ， 
从 而 促进 了 移植 过 程 。 可 以 在 PEP 3110 找到 关于 该 变化 的 更 多 信息 。 


抛 出 异常 


Python 2.x 中 抛 出 异常 的 最 受 欢 迎 的 语法 如 下 所 示 。 

























































































raise ValueError, e 


调 的 是 ， 你 正在 创建 一 种 异常 的 一 个 实例 ，Python 3.x 中 唯一 支持 的 一 种 语 











要 重点 强 














TE 











raise ValueError (e) 


这 个 语法 其 实 一 点 也 不 新 鲜 。 在 超过 10 年 前 的 Python 1.5《〈 是 的 ， 你 没有 看 错 ) 中 就 引 
入 了 这 种 语法 ， 当 时 异常 由 字符 串 变化 成 类 ， 类 实例 化 的 语法 看 起 来 更 像 是 后 者 而 非 前 者 ， 
并 且 我 们 确信 你 会 同意 这 一 点 。 
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C.2.5 整数 的 更 新 
单 整数 类 型 


Python 的 两 种 不 同 的 整数 类 型 int 和 long, 在 Python 2.2 中 开始 了 它们 的 统一 。 那 种 改变 
现在 几乎 已 经 完成 ， 此 时 新 的 int 表现 得 就 像 一 个 long 类 型 。 因 此 ， 当 你 超过 本 地 整数 大 小 
时 不 再 导致 OverflowError 异常 ， 并 且 后 绥 世 也 已 经 弃 用 。PEP 237 给 出 了 这 种 变化 。long 型 
仍然 存在 于 Python 2.x 版 本 中 ， 但 是 在 Python 3.0 版 本 中 它 已 经 消失 。 


除法 的 改变 


当前 的 除法 操作 符 (/) 不 会 为 编程 新 手 给 出 预期 的 答案 ， 所 以 它 已 经 发 生 改 变 以 提供 这 
种 功能 。 如 果 说 这 种 改变 带 来 了 任何 争议 , 那 就 仅仅 是 程序 员 适 应 了 向 下 除法 (floor division? 
功能 。 为 了 查看 混乱 是 如 何 出 现 的 , 我 们 可 以 尝试 让 一 个 编程 新 手 认为 1 除 以 2 是 0(1/2== 
0)， 而 描述 这 种 变化 的 最 简单 方法 就 是 举例 说 明 。 接 下 来 就 是 一 些 摘自 “Keeping up with 
Python: The 2.0 Release 的 内 容 ， 这 是 在 2002 年 7 月 份 出 版 的 《Linux Journal》 中 找到 的 。 
此 外 ， 你 也 可 以 在 PEP238 中 找到 关于 这 个 更 新 的 更 多 信息 。 


经 典 除法 


Python 2.x 中 默认 的 除法 运算 工作 原理 是 这 样 的 : 给 定 两 个 整数 操作 数 ,“/” 执 行 整数 向 
下 除法 〈 截 断 小 数 部 分 ， 正 如 前 面 的 例子 那样 )。 如 果 两 个 操作 数 中 至 少 有 一 个 是 浮 点 数 ， 那 
么 真 除法 (true division) 就 会 发 生 。 































































































































































































































































































>>> 1/2 # floor 
0 
>>> 1.0 / 2.0 # true 
Qn 
真 除法 
在 Python 3.x 中 ， 给 定 任 意 两 个 数字 操作 数 ,“/” 将 总 是 返回 一 个 浮 点 数 。 
>>> 1 / 2 # true 
0.5 
>>> 1.0 / 2.0 # true 
0.5 





























如 果 要 在 Python 2.2 中 使 用 真 除 法 , 可 以 从 _future “导入 division 或 者 使 用 -Qnew 开关 。 
向 下 除法 


双 和 斜 线 除法 运算 号 CO) 是 在 Python 2.2 中 添加 的 。 无 论 操作 数 是 什么 类 型 ， 它 永远 表示 
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向 下 除法 ， 并 开始 转换 过 程 。 





>>> 1 // 2 # floor 
0 
>>> 1.0 // 2.0 # floor 
0.0 

二 进 制 和 八进制 文字 

















Python 2.6+ 中 增加 了 小 整数 (minor integer) 字面 量 的 变化 , 以 使 得 字面 量 的 非 十 进 制 (十 
六 进 制 、 八 进 制 和 新 的 二 进 制 ) 的 格式 一 致 。 十 六 进 制 表示 保持 不 变 ， 仍 然 利用 前 导 Ox 或 
OX (八进制 以 单个 0 为 前 导 )。 事 实证 明 这 种 格式 会 使 一 些 用 户 混淆 ， 所 以 为 了 一 致 性 已 经 
将 其 更 改 为 00。 你 现在 必须 写成 00177， 而 不 是 0177。 最 后 ， 新 的 二 进 制 文 字 会 让 你 提供 一 
个 整数 值 的 各 个 位 ， 以 前 导 Ob 为 前 级 ， 如 0b0110。 此 外 ，Python 3 中 不 接受 0177。 可 以 在 
PEP 3127 找到 关于 整数 字面 量 更 新 的 更 多 信息 。 


C.2.6 ”和 迭代 器 无 处 不 在 


Python 3.x 中 内 在 的 另 一 个 主题 就 是 内 存 保 护 。 使 用 迭代 器 比 在 内 存 中 维护 整个 列表 更 有 效 ， 
特别 是 针对 问题 对 象 的 目标 动作 是 迭代 时 。 当 不 必要 时 就 无 须 浪费 内 存 。 因 此 ， 在 Python 3 中 ， 
早期 版 本 语言 中 返回 列表 的 代码 将 不 再 需要 这 么 做 。 

例如 ， 函 数 mapO、filter0、range0 和 zipO0， 加 上 字典 方法 keysO、itemsO 和 values), H 
中 每 一 个 都 返回 一 些 种 类 的 迭代 器 。 是 的 ， 如 果 你 想 查 看 数据 ， 那 么 这 个 语法 可 以 更 方便 
而 在 查看 资源 消耗 时 它 更 好 用 。 这 些 变 化 大 多 是 高 级 选项 ， 如 果 你 只 使 用 函数 的 返回 值 来 遍 
历 ， 那 么 你 将 不 会 注意 到 这 些 改变 。 

























































































































































































































































































































































































C.3 迁移 工具 


正如 你 所 看 到 的 ，Python 3.x 中 的 大 多 数 变化 并 不 代表 Python 语法 的 一 些 巨大 变化 。 相 
反 ， 这 些 变化 刚好 足以 打破 旧 有 的 代码 库 。 当 然 ， 这 些 变化 都 会 影响 用 户 ， 所 以 很 明显 需要 
一 个 很 好 的 过 渡 计 划 ， 而 大 多 数 好 的 计划 都 来 自 于 好 的 工具 或 者 有 助 于 平滑 过 渡 。 这 种 工具 
包括 〈 但 不 限于 ) 以 下 这 些 : 2 to 3 代码 转换 器 、 最 新 版 本 的 Python 2.x CE 2.6), UKY 
部 〈 非 标准 库 ) 3 to 2 工具 和 six 库 。 这 里 将 讨论 前 两 个 工具 , 剩 下 的 几 个 读者 可 以 自行 研究 。 


C.3.1 2to3 工具 


2to3 工具 将 接收 Python 2.x 代码 ， 并 尝试 生成 Python 3.x 下 的 功能 相同 的 可 行 代 码 。 以 
下 是 它 执行 的 一 些 操作 。 
。 T4 print 语句 转换 为 print0 函 数 。 
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。 删除 长 整 型 后 绥 L. 

( Hrs, 

。 将 单反 引号 字符 串 ('...') BUR repr(...). 

这 个 工具 做 了 很 多 手工 劳动 ， 但 并 不 是 所 有 的 事情 ， 剩 下 的 事情 就 只 能 靠 你 了 。 可 以 在 
“Python 3.0 中 的 新 特性 ”(Whats New in Python 3.0) 文档 或 者 该 工具 的 网 站 
Chttp://docs.python.org/3.0/library/2to3.html) 上 详细 了 解 关于 移植 的 建议 和 2to3 工具 。 附 录 D 
中 将 简要 提 及 一 个 名 为 3to2 的 配套 工具 。 


C.3.2 Python 2.6+ 


由 于 兼容 性 问题 ，Python 版 本 的 发 行 导致 了 Python 3.0 在 代码 转变 中 扮演 着 更 重要 的 角 
色 。 需 要 特别 注意 的 是 Python 2.6， 它 是 这 种 发 行 版 本 中 第 一 个 也 是 最 关键 的 版 本 。 对 于 用 
户 来 说 ， 这 代表 第 一 次 他 们 可 以 开始 编写 针对 Python 3.x 系列 的 代码 ， 因 为 很 多 Python 3.x 
的 特性 已 经 移植 到 2.x 版 本 中 。 

只 要 有 可 能 , 最 终 的 2.x 发 行 版 本 (2.6 及 更 新 版 本 ) RAT 3.x 版 本 中 的 新 功能 和 语法 ， 
同时 在 不 删除 旧 有 特性 或 语法 的 情况 下 保持 与 现存 代码 的 兼容 性 。“Python 2.x 中 的 新 特性 ” 
(What’s New in Python 2.x) 文档 描述 了 所 有 发 行 版 本 的 这 种 特性 。 附 录 了 将 详细 介绍 其 中 的 
一 些 移植 特性 。 








































































































































































































































































































C.4 结论 





总 的 来 说 ， 本 附录 中 概述 的 变化 确实 对 解释 器 的 更 新 需求 有 很 大 影响 ， 但 是 它们 不 应 该 
彻底 改变 程序 员 编 写 Python 代码 的 方式 。 它 仅仅 需要 改变 编码 的 旧 习 惯 ,例如 使 用 带 圆 括号 
的 print， 即 print0。 一 旦 适应 了 这 些 变化 ， 那 么 你 将 能 以 自己 的 方式 有 效 地 适应 新 平台 。 刚 
开始 它 可 能 有 些 令 人 吃惊 ， 但 是 这 些 变化 已 经 出 现 有 一 段 时 间 了 。 不 要 惊慌 : Python 2.x 将 
会 存在 很 长 一 段 时 间 。 这 个 过 渡 将 是 缓慢 的 、 深 思 熟 虑 的 、 令 人 痛苦 的 ， 甚 至 是 具有 倾覆 性 
Hj. 黎明 就 要 到 了 ! 
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APPENDIX D 


附录 D 利用 Python 2.6++ 向 
Python 3 迁移 


我 们 使 语言 一 直 进 化 ……:[ 我 们 ] 要 么 前 进 ， 要 么 死亡 。 
— Yukihiro “Matz” Matsumoto 


(EDBEMEVUA), 2008 #9 A 
(Lone Star Ruby 会 议 上 口述 ; Guido 参考 的 实际 引述 ) 


D.1 Python 3: Python 的 下 一 代 








自从 1991 年 冬天 Python 第 一 次 发 行 以 来 ，Python 目前 正在 经 历 它 最 重要 的 转变 。 因 为 
Python 3 并 不 兼容 所 有 的 旧版 本 ， 所 以 移植 将 是 比 以 往 更 加 重要 的 问题 。 

然而 ， 不 像 其 他 的 临终 努力 ，Python 2.x 并 不 会 很 快 消 失 。 事 实 上 ， 剩 余 的 2.x 版 本 系列 
将 会 与 3.x 版 本 并 行 开发 ， 从 而 确保 从 当前 版 本 到 下 一 代 的 平稳 过 渡 。Python 2.6 是 这 些 2.x 
最 终 发 行 版 本 的 第 一 个 。 

这 份 文 档 强 化 材料 覆盖 了 附录 C， 但 是 在 适当 的 地 方 讲解 得 更 详细 。 
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混合 


D.1.1 2.6+ 作 为 转换 工具 
Python 2.6 和 之 后 的 2.x 版 本 者 





"是 混合 解释 器 
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， 这 意味 着 它们 可 以 运行 大 量 的 1.x 版 本 代 








码 和 所 有 2.x 版 本 的 软件 ， 
版 本 中 可 用 )。 有 些 人 会 认为 混合 
经 典 类 和 新 型 类 ， 但 这 就 是 它们 能 做 的 。 

2.6 发 行 版 本 是 第 一 个 支持 版 本 3.x 中 特定 可 
结 如 下 。 
























































单 整数 类 型 
新 的 二 进 制 和 改进 的 八进制 字面 量 
经 典 除 法 或 真 除法 
-Q 除法 开关 
内 置 函数 
e print 或 print() 
e reduce() 
其 他 更 新 
面向 对 象 编程 
两 种 不 同 的 类 对 象 
字符 串 
e bytes 字面 量 
e bytes 类 型 
异常 
。 处 理 异 常 
Judi pe 
其 他 转换 工具 和 技巧 
警告 : -3 开关 
2to3 工具 

本 附录 不 讨论 2.x 版 本 其 
影响 。 因 此 ， 书 归 正 传 ， 我 们 继续 往 下 讲 。 


D.2 整数 





























































































































甚至 可 以 运行 一 定数 量 的 3.x AS CBS 
坚 释 器 可 以 追溯 到 Python 2.2 版 本 ， 因 


这 意味 着 它们 对 移植 应 月 








也 版 本 为 3.x， 但 是 在 2.6+ 
为 它们 同时 支持 创建 























移植 特性 的 版 本 。 其 中 最 重要 的 一 些 特性 总 





in H 





到 版 本 3.x KAA 


| 


E 何 























在 3.x 和 其 他 版 本 中 ， 有关 它们 的 类 型 、 字 面 量 

















和 整数 除法 操作 ，Python 的 整数 面临 了 几 个 














变化 。 接 下 来 逐个 





述 这 些 变化 ， 并 着 重 强 


























调 2.6 版 本 和 更 新 版 本 在 版 本 迁移 ! 
































的 角色 。 
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D.2.1 单 整数 类 型 


以 前 版 本 的 Python 中 有 两 种 整数 类 型 int 和 long。 原 来 int 型 的 大 小 根据 代码 运行 的 平台 架 
构 〈 即 32 位 、64 位 ) 有 所 限制 ， 除 了 受 操作 系统 提供 的 虚拟 内 存 大 小 的 影响 之 外 ，long 型 
在 大 小 上 是 无 限制 的 。Python 2.2 开始 将 这 两 种 类 型 统一 为 单个 int 类 型 ， 并 且 将 在 3.0 版 本 ” 
中 完成 。 而 新 型 的 单 int 类 型 在 大 小 上 将 是 无 限制 的 ， 而 long 型 的 前 置 L 或 1 标志 被 移 除 。 可 以 
在 PEP 237 中 阅读 关于 这 种 变化 的 更 多 信息 。 

从 版 本 2.6 开始 ， 除 了 对 后 置 工 的 支持 外 ， 已 经 没有 了 long 整数 的 痕迹 。 包 含 它 出 于 后 
向 兼容 性 的 目的 ， 以 此 支持 所 有 使 用 long 整数 的 代码 。 然 而 ， 用 户 应 该 积极 从 现 有 代码 中 清 
除 long 整数 ， 并 且 不 应 该 在 任何 针对 Python 2.6+ 版 本 的 新 代码 中 再 使 用 它 。 


D.2.2 ”新 型 二 进 制 和 改进 的 八进制 字符 


Python 3 中 对 整数 可 蔡 代 的 基础 格式 进行 了 微小 修改 。 它 从 根本 上 将 其 语法 变 得 流线型 ， 
以 使 它 与 现 有 的 十 六 进 制 格式 保持 一 致 ， 即 以 Ox 为 前 级 (或 者 OX 大 写字 母 )， 例 如 0x80、 
Oxffff、0xDEADBEEF。 

一 种 新 型 的 二 进 制 字面 量 使 你 能 够 为 一 个 整数 提供 各 个 位 ， 以 0b 为 前 级 〈( 如 0b0110)。 
原始 的 八进制 表示 方式 以 单个 0 为 前 级 ， 但 事实 证 明 这 种 格式 对 一 些 用 户 来 说 比较 混乱 ， 所 
以 它 已 经 更 改 为 00， 以 此 将 它 与 十 六 进 制 和 二 进 制 字 面 量 对 应 ， 正 如 前 面 所 描述 的 。 换 句 话 
说 ， 将 不 再 允许 0177 这 种 表示 方式 ， 而 必须 使 用 00177 这 种 格式 。 下 面 是 一 些 例 子 。 
































































































































































































































































































































































































































Python 2.x 


>>> 0177 
127 


Python 3 ( 包括 2.6+ ) 


>>>0o177 
127 
>>>0b0110 
6 


新 型 二 进 制 和 改进 的 八进制 字面 量 格式 都 移植 到 了 2.6 版 本 来 帮助 迁移 。 事 实 上 ， 作 为 
转换 工具 的 角色 中 ，2.6 和 更 新 版 本 同时 接受 两 种 八进制 格式 ， 而 任何 3.x 版 本 都 不 接受 旧版 
的 0177 格式 。 可 以 在 PEP 3127 中 找到 有 关 整 型 字面 量 更 新 的 更 多 信息 。 




















































































































© 可 以 认为 布尔 (bool) 类 型 也 是 这 个 等 式 的 一 部 分 ， 因 为 布尔 数 在 数值 情况 下 的 行为 就 像 0 和 1， 而 不 是 
对 应 地 拥有 自然 的 False 和 True 值 。 
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EH 


HRD FIR 

















Agir bebe 


， 然 而 对 除法 运算 各 
两 个 整 型 操作 数 ,“/” 执 行 整数 向 下 除法 。 如 果 两 者 











fF UD 的 改变 仍 有 很 多 争议 。 传 统 














D.2.3 经 典 除 法 或 真 除法 

虽然 改变 已 经 存在 了 很 长 一 段 时 站 
的 除法 运算 符 以 下 面 的 方式 工作 : 给 定 
中 至 少 有 一 个 浮 点 数 ， 那 就 执行 真 除法 。 


Python 2.x: 经 典 除法 



















































































































































































222 14272 # floor 
0 
>>> 1.0 / 2.0 # true 
0.5 
>>> 1.0/2 # true (2 在 内 部 强制 转换 成 浮 点 数 ) 
055 
在 Python 3 中 ， 运 算 符 “/” 将 始终 返回 一 个 浮 点 数 ， 无 论 操 作 数 类 型 是 什么 。 
Python 3.x: 真 除法 
>>> 1 / 2 # true 
0.5 
25» 130.4: 72 # true 
0:55 
Python 2.2 中 增加 了 双 和 斜 线 除法 运算 符 〈V/) 作为 一 个 代理 总 是 执行 向 下 除法 ， 无 论 操 作 
数 类 型 是 什么 都 将 开始 转换 过 程 。 
Python 2.2+ 和 3.x: 向 下 除法 
>>> 1//2 # floor 
0 
>>> 1.0 //2 # floor 
0.0 
在 3.x 版 本 中 ， 使 用 “/” 将 是 唯一 获取 向 下 除法 功能 的 方式 。 为 了 在 Python 2.2+ 中 尝试 
真 除法 ， 可 以 添加 一 行 “from_ future_import division” 到 代码 中 ， 或 者 使 用 “-Q ”命令 行 
常 执行 真 除法 ， 





选项 〈 稍 后 讨论 )。 
Python 2.2+: 除法 命令 行 选项 
“Q”, Bé D-1 所 示 。 


如 果 你 不 希望 从 _ future_ 模块 中 导入 division 到 代码 中 ， 但 是 你 又 想 经 
其 他 选项 来 使 用 












































37 


“-Qnew” 开 关 。 此 外 ， 还 有 




















b 么 你 可 以 使 用 





iH 
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表 D-1 除法 操作 -Q 命令 行 选项 





































































































选项 描述 
old 台 终 执行 经 典 除法 
new 始终 执行 真 除 法 
warn 针对 int/int 和 long/long 操作 的 警告 
warnall 针对 所 有 “/” 使 用 情况 的 警告 
例如 ，Python 源 代 码 发 行 版 中 发 现 的 Tools/scripts/fixdiv.py 脚本 中 就 使 用 了 “-Qwarnall” 
选项 。 
可 能 现在 你 已 经 猜 到 了 ， 因 为 所 有 的 转换 工作 已 经 在 Python 2.2 中 实现 了 ， 并 且 考 虑 






































到 Python 3 的 移植 以 及 已 经 添加 了 命令 行 ,所 以 Python 2.6 或 2.7 中 并 没有 添加 特定 的 附加 
功能 。 表 D-2 总 结 了 各 种 Python 发 行 版 中 的 除法 运算 符 及 它们 的 功能 。 


表 D-2 不 同 Python 发 行 版 中 默认 除法 运算 符 功能 






















































































运算 符 2.1- 2.2+ 3.x" 
/ 经 典 除法 经 典 除法 真 除法 
Il 不 适 向 下 除法 向 下 除法 
































CD 利用 -Qnew 选项 或 导入 ”future。 .division，“3.x” 列 也 适用 于 Python 2.2+。 

可 以 在 PEP 238 中 阅读 有 关 除 法 运算 符 变化 的 更 多 信息 , 也 可 以 阅读 题目 为 “Keeping Up 
with Python: The2.2 Release” 的 文章 ， 这 篇 文章 是 我 在 2002 年 7 月份 在 Linux Journal 上 发 
表 的 。 


D.3 ”内置 函数 


D.3.1 print 语句 或 print() 函 数 


导致 Python 2.x 和 3.x 应 用 程序 之 间断 层 的 最 常见 原因 之 一 就 是 print 语句 的 改变 ,在 3.x 
版 本 中 print 语句 已 经 变 成 了 一 个 内 置 函 数 ， 这 已 经 不 是 什么 秘密 。 根 据 需要 ， 这 种 变化 使 得 
print() 更 加 灵活 、 方 便 升级 和 方便 切换 。 

Python 2.6 和 更 新 版 本 支持 print 语句 或 printO 内 置 函 数 。 而 默认 情况 下 使 用 前 者 ， 因 为 
已 应 该 在 版 本 2.x 语言 中 。 在 “Python 3 模式 ”应 用 程序 中 , 为 了 丢弃 print 语句 而 只 使 用 print 
函数 ， 只 需要 从 _future “导入 print function. 
















































































































































































>>> print 'foo', 'bar' 
foo bar 
>>> 


>>> from _ future _ import print function 
>>> print 


«built-in function print» 


>>> print('foo', 'bar') 

foo bar 

>>> print('foo', 'bar', sep='-') 
foo-bar 





HY 





























在 它 的 调用 中 以 参数 sep 的 形式 使 用 这 个 功能 , 它 











需要 注意 的 是 ， 这 是 一 个 单 向 导入 ， 也 就 是 说 




















D.3.2 


D.3.3 


Python 3.x 中 的 
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的 示例 演示 了 printO 作 为 函数 的 功能 。 使 用 print 语句 ， 我 们 向 用 户 显 示 了 字符 串 
foo 和 bar， 但 我 们 无 法 改变 字符 串 之 间 的 默认 分 嘎 























| 符 ， 即 一 个 空格 。 相 比 之 下 ，print0 使 得 
蔡 代 了 默认 分 隔 符 ， 允许 print 不 断 演变 。 








， 没 有 办 法 将 print0 复 原 成 语句 。 甚 至 使 
] “del print_function ”也 没有 任何 效果 。PEP 3105 详细 描述 了 这 个 重大 改变 。 





























reduce() 转 移 到 了 functools 模块 中 


f£ Python 3.x 中 ,reduce0 函 数 已 经 从 内 置 函 数 退 变 成 了 functools 模块 中 的 函数 (使 得 很 
多 Python 程序 员 局 恼 不 已 )， 这 一 改变 开始 于 Python 2.6. 








>>> from operator import add 


>>> reduce (add, range (5)) 


>>> import functools 
>>> functools.reduce(add, range(5)) 
10 


其 他 更 新 





























个 关键 主题 就 是 开始 更 多 地 使 用 迭代 器 ， 尤 其 
































是 内 置 函数 和 那些 原来 








返回 列表 的 方法 。 因 为 整 型 类 型 的 更 新 ， 所 以 其 他 友 代 器 仍然 正在 改变 。 下 面 是 Python 3.x 
中 改变 的 最 引 人 注 目的 内 置 函数 。 























range() 
zpO 
map() 
filter() 
hex() 
oct() 























从 Python 2.6 开始 , 程序 员 可 以 通过 导入 future. builtins 模块 来 访问 新 增 的 和 更 新 的 函数 。 
下 面 的 例子 演示 了 旧版 和 新 版 的 oct 1 zip0 函 数 。 
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>>> oct (87) 


'0127' 

>>> 

>>> zip(range(4), 'abcd') 

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')] 
>>> dict(zip(range(4), 'abcd')) 

(Oe Naty Liz *b', 22 “et, 32 Vas} 

>>> 


>>> import future_builtins 

>>> future_builtins.oct (87) 

'00127' 

>>> 

>>> future builtins.zip(range(4), 'abcd') 
<itertools.izip object at 0x374080> 

>>> dict (future_builtins.zip(range(4), 'abcd')) 
COS Vale. T1 55224 Neds Se td) 


如 果 在 你 当前 的 Python 2.x 环境 中 ， 你 只 
以 通过 将 所 有 的 新 函数 导入 你 的 命 pe 来 重 
种 过 程 。 






































写 旧 有 的 函数 。 下 面 的 示例 中 用 oc 



































>>> from future builtins import * 
>>> oct(87) 
'00127' 


D.4 面向 对 象 编程 : 两 种 不 同 的 类 对 象 


Python 的 原始 类 现在 称 为 经 典 类 。 它 们 有 很 多 缺陷 ， 所 以 最 终 被 新 型 类 取代 。 





从 Python 2.2 开始 ， 一 直 延 续 到 今天 。 
经 典 类 使 用 下 面 的 语法 。 


class ClassicClass: 
































pass 


新 型 类 使 用 这 种 语法 。 























class NewStyleClass (object): 


pass 


新 型 类 比 经 典 类 具有 更 多 的 优势 ， 而 后 者 存在 目的 仅仅 是 为 了 兼容 性 ， 并 












































想 使 用 Python 3.x 版 本 的 这 些 函 数 ， 





那么 你 可 
tO 演 示 了 这 


这 种 转换 





























在 Python 3 


中 己 完全 废除 。 伴随 着 新 型 类 , 类 型 和 类 最 后 得 以 统一 ( 见 Guido 的 文 章 “Unifying Types and 








Classes in Python 2.2” 以 及 PEP 252 和 PEP 253)。 
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为 了 迁移 ，Python 2.6 或 更 新 版 本 中 并 没有 添加 其 他 改变 ， 除 非 你 将 类 装饰 器 视 为 一 个 






































3.x 特性 。 只 是 请 注意 ， 所 有 2.2+ 版 本 都 作为 一 个 混合 解释 器 存在 ， 同 时 允许 类 对 象 和 类 实 
例 。 在 Python 3 中 ， 前 面 例子 中 的 两 种 语法 都 将 会 创建 新 型 类 。 这 种 行为 不 会 构成 严重 的 移 
植 问题 ， 但 是 你 确实 需要 注意 到 Python 3 中 不 存在 经 典 类 。 















































D.5 字符 串 


Python 3.x 中 一 个 特别 明显 的 改变 前 





























是 默认 字符 串 类 型 正在 变化 。Python 2.x 同时 支持 


ASCI 和 Unicode 字 符 串 ,默认 情况 下 是 ASCI 编 码 。 而 Python 3 中 这 种 支持 刚好 调换 :Unicode 
现在 变 成 了 默认 类 型 ， 而 ASCI 字符 串 现在 称 为 bytes。bytes 数据 结构 包含 字 节 值 ， 并 且 它 






































不 应 该 再 被 视 为 一 个 字符 串 ， 因 为 它 是 一 个 包含 数据 的 不 可 变 字 节 数组 
目前 在 Python 3.x 中 ， 字 符 串 字面 量 将 需要 一 个 前 导 b 或 B， 并 且 目 前 的 Unicode 字符 
串 字面 量 将 废弃 它们 的 前 导 u 或 U。 类 型 和 内 置 函 数 名 字 将 会 分 别 从 str 变 成 bytes 和 从 unicode 












































o 


变 成 str。 此 外 ， 还 有 一 个 名 为 bytearray 字 节 数 组 ) 的 新 可 变 “ 字 符 串 ”类 型 ， 就 像 bytes 


一 样 ， 它 也 是 一 个 字 节 数 组 ， 只 是 它 可 变 。 












































可 以 在 HOWTO 系列 文章 中 找到 关于 使 用 Unicode 字符 串 的 更 多 信息 ,并 在 PEP 3137 


中 了 解 字符 串 类 型 的 这 些 变化 。 请 











D.5.1 bytes 字面 量 


为 了 在 Python 3.x 中 平滑 使 用 bytes 对 象 的 方式 , 在 Python 2.6 中 可 以 选择 为 一 个 普通 的 
























































参考 表 C-1 来 了 解 Python 2 和 Python 3 中 各 种 字符 串 





























ASCII 或 二 进 制 字符 串 添加 一 个 前 导 b 或 B， 从 而 创建 字 节 字符 (b" 或 B") 作为 str 字面 量 的 
同义词 (")。 前 导 指 示 器 本 身 与 任何 str 对 象 或 任何 对 象 操作 符 〈 纯 粹 只 是 装饰 ) 都 没有 关系 ， 
但 是 它 确实 为 你 准备 了 Python 3 中 的 情景 ， 此 时 你 需要 创建 这 样 的 字面 













































































中 找到 关于 bytes 字面 量 的 更 多 信息 。 

















Bytes 就 是 str 


应 该 不 需要 太 多 的 想像 力 来 识别 ， 如 果 支 持 bytes 字面 量 ， 那 么 bytes 对 象 本 身 需 要 存在 








于 Python 2.6+ 中 。 


>>> bytes 


True 














因此 ， 在 Python 2.6+ 中 任何 需要 使 用 str 或 str0 的 地 方 ， 都 可 以 使 
B. HUE PEP 358 中 找到 有 关 bytes 对 象 的 进一步 信息 。 








FE, bytes 类 型 是 str 的 代名词 ， 如 下 所 示 。 


is str 


H 


四 | 




















量 。 可 以 在 PEP 3112 







































































bytes 或 bytes(0) 来 代 
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D6 异常 








Python 2.6 和 更 新 的 2.x 发 行 版 有 几 个 特性 ， 可 以 使 用 这 些 特性 在 Python 3.x 中 移植 异常 
处 理 程 序 并 抛 出 异常 。 


D.6.1 处 理 异常 (使 用 as) 


Python 3 中 捕获 和 处 理 单个 异常 的 语法 如 下 所 示 。 
except ValueError as e: 
变量 e 包 含 异 常 的 实例 ， 它 提供 了 错误 抛 出 的 原因 。 它 是 可 选 的， 正如 整个 “as e” 短 语 
也 是 可 选 的 一 样 。 因 此 ， 这 种 变化 只 适用 于 那些 保存 这 个 值 的 用 户 。 
等 同 的 Python 2 语法 使 用 了 一 个 去 号， 而 不 是 as 关键 字 。 
except ValueError, e: 
这 种 变化 发 生 在 Python 3.x ! 
致 的 混乱 。 
为 了 用 相同 的 程序 捕获 多 个 异常 ， 初 学 者 经 常 号 这 些 代码 。 
except ValueError, TypeError, e: 


事实 上 ， 如 果 你 试图 捕获 多 个 异常 ， 你 需要 使 用 一 个 包含 所 有 有 异常 的 元 组 。 





















































































































































因为 程序 员 试 图 用 相同 的 程序 处 理 超过 一 个 异常 时 所 导 
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except (ValueError, TypeError), e: 
Python 3.x C fll Python 2.6+) 中 的 as 关键 字 ， 意 在 确保 原始 语法 中 的 逗号 不 再 成 为 混乱 
的 根源 。 然 而 ， 当 你 试图 用 相同 的 处 理 程序 捕获 多 种 类 型 的 异常 时 ， 仍 然 需要 圆 括号 。 
except (ValueError, TypeError) as e: 
为 了 移植 工作 ， 当 定义 保存 实例 的 异常 处 理 程序 时 ，Python 2.6 和 更 新 版 本 都 接受 逗号 
或 as 关键 字 。 相 比 之 下 ，Python 3 中 只 允许 as 语句 。 可 以 在 PEP 3110 中 找到 有 关 这 个 改变 
的 更 多 信息 。 


D.6.2 WERE 


其 实 , Python 3.x 中 有 关 抛 出 异常 的 变化 并 不 是 一 个 变化 。 实 际 上 , 它 甚 至 与 Python 2.6 
的 过 渡 工 作 没 有 任何 关系 。Python 3 中 抛 出 异常 〈 为 异常 提供 可 选 原因 ) 的 语法 如 下 。 


raise ValueError('Invalid value') 
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Python 长 期 用 户 可 能 一 直 使 用 下 面 的 语法 《虽然 所 有 2.x 版 本 都 支持 这 两 种 方法 )。 


raise 





ValueError, 'Invalid value' 


























需要 强调 的 是 ， 抛 出 异常 相当 于 实例 化 一 个 异常 类 ， 并 提供 一 些 额外 的 灵活 性 ， 而 Python 3 
仅仅 支持 第 一 种 写法 。 好 消息 是 ， 你 不 必 等 待 到 2.6 版 本 来 开始 使 用 这 种 技术 ， 正 如 附录 C 提 到 
的 ， 自 从 Python Lx 时 代 这 种 语法 就 已 经 有 效 了 。 


D.7 其 他 转换 工具 和 技巧 





除了 Pytho 
















































































n 2.6 之 外 , 开发 人 员 可 以 使 用 很 多 工具 来 更 顺利 地 过 渡 到 Python 3.x, J ze 




















-3 开关 〈 它 提供 了 过 时 警告 ) 和 2to3 工具 (可 以 在 http://docs.python.org/3.0/library/2 to3.html 












































阅读 关于 它 的 更 多 信息 )。 然 而 ， 可 以 “编写 ”的 最 重要 的 工具 就 是 一 个 好 的 过 渡 计 划 。 实 际 
上 ， 没 有 计划 的 替代 品 。 












































显然 ，Python 3.x 的 变化 并 不 代表 熟悉 的 Python 语法 的 一 些 巨大 变化 。 相 反 ， 这 些 变化 
刚好 足以 打破 旧 有 的 代码 库 。 当 然 ， 这 些 变化 将 会 影响 用 户 ， 所 以 一 个 好 的 过 渡 计 划 是 至 关 
重要 的 。 大 多 数 好 的 计划 都 来 具 或 在 这 方面 的 辅助 。“What's New in Python 3.0” 文 档 
































































































































中 的 移植 建议 特别 声明 ， 除 了 关键 工具 的 使 用 之 外 ， 好 的 测试 代码 是 至 关 重 要 的 。 讲 得 重 一 





点 ， 下 面 正 是 
内 容 。 














http://docs.python.org/3.0/whatsnew/3.0.html # porting-to-python-3-0 中 建议 的 


1. 先决 条 件 ) 从 出 色 的 测试 覆盖 率 开 始 。 
2. 植 到 Python 2.6。 这 应 该 仅仅 包括 从 Python 2.x 到 Python 2.(x+1) 的 平均 移植 。 确 保 你 























的 所 有 测试 都 通过 。 


















































3. 仍然 使 用 2.6) 打开 -3 命令 行 开关 。 它 能 够 开启 有 关 Python 3.0 中 移 除 〈 或 更 改 ) 特 




































































性 警告 功能 。 再 次 运行 测试 套件 ， 并 修复 任何 产生 警告 的 代码 。 确 保 你 所 有 的 测试 仍 
旧 能 够 通过 。 



































4. 你 的 源码 树 运 行 2to3 源码 到 源码 转换 器 。 在 Python 3.0 下 运行 转换 结果 。 手 动 修复 





剩余 的 问题 ， 然 后 继续 修复 问题 直到 所 有 测试 都 再 次 通过 。 






































男 一 个 要 考虑 的 可 选项 就 是 3to2 工具 。 顾 名 思 义 ， 它 的 功能 与 2to3 工具 相反 : 它 接收 


Python 3 代码 ， 

















并 尝试 将 其 转换 为 Python 2 下 等 效 的 代码 。 这 个 库 由 一 个 外 部 开发 者 维护 ， 








并 且 不 是 标准 库 的 一 部 分 。 然 而 ， 这 是 一 个 有 趣 的 选择 ， 因 为 它 鼓 励 人 们 以 在 Python 3 中 编 









































码 作为 他 们 主要 的 开发 工具 ， 而 这 不 是 一 件 坏事 。 可 以 在 http://pypi.python.org/pypi/3to2 上 了 








解 有 关 3to2 的 更 多 信息 。 





























第 三 种 方法 就 是 压根 不 移植 ; 相反 ,开始 时 就 编写 能 够 运行 于 2.x 和 3.x 上 的 代码 (无 须 





修改 源 代码 )。i 


文 有 可 能 吗 ? 
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D.8 编写 兼容 版 本 2.x 和 3.x 的 代码 





当 我 们 处 于 从 Python 2 转换 到 Python 3 的 交叉 口 时 ， 你 可 能 会 想 知道 否 有 可 能 编写 无 须 
修改 就 能 同时 运行 于 Python 2 和 3 上 的 代码 。 这 似乎 是 一 个 合理 的 请 求 ， 但 是 你 应 该 如 何 开 
始 呢 ? 当 用 3.x 解释 器 执行 Python 2 代码 时 ， 什 么 破坏 了 大 部 分 Python 2 代码 呢 ? 

D.8.1 对 比 print 和 print() 


如 果 你 跟 我 想 的 一 样 ， 导 
地 方 ， 所 以 让 我 们 解决 它 吧 。 


字 或 保留 字 ， 而 在 版 本 3.x | 
















































































了 么 你 将 会 说 前 面 问题 的 答案 就 是 print 语句 。 这 是 开始 的 一 个 好 
棘手 的 部 分 是 ， 在 版 本 2.x 中 它 是 一 个 语句 ， 因 













































































此 是 一 个 关键 
， 它 只 是 一 个 内 置 函数 。 换 名 话说 ， 因 为 涉及 了 语言 语法 ， 所 
以 你 不 能 使 用 让 语句 ， 而 Python 还 没有 机 fdef 宏 。 

让 我 们 尝试 把 圆 括 




















FS CCE print 参数 的 两 侧 。 





>>> print('Hello World!') 


Hello World! 























第 了 ， 这 可 以 同时 在 Python 2 和 Python 3 上 工作 了 。 这 就 结束 了 吗 ?” 对 不 起 ， 还 没完 
全 结束 。 


>>> print(10, 


20) 4 Python 2 
(10, 20) 


3 MRIS ANS AB SES 
的 是 多 个 参数 。 





» K 








为 前 者 是 一 个 元 组 ， 而 在 Python 3 ! 


























， 你 向 print0 中 传 入 
>>> print (10, 
10 20 


如 果 你 思考 得 再 多 一 点 ， 也 许 我 们 可 以 检查 print 是 否 是 
一 个 包含 关键 字 列 表 的 keyword 模块 。 因 为 Python 3.x ! 
它 可 以 像 下 面 这 么 简单 。 


20) # Python 3 



























































个 关键 字 。 你 可 能 还 记得 ， 有 
print 不 是 关键 字 ， 所 以 你 可 能 认为 




















>>> import keyword 


>>> 'print' in keyword.kwlist 
False 





作为 一 名 聪明 的 程序 员 ， 你 可 能 会 在 2.x hone. ER 
你 可 能 是 正确 的 ， 但 你 还 是 会 因 一 个 不 同 的 原因 而 失败 。 


















































mA 
my 


>>> import keyword 


>>> if 'print' in keyword.kwlist: 
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. from future . import print function 


File "<stdin>", line 2 
SyntaxError: from X future | imports must occur at the beginning of 
the file 


一 种 可 行 的 解决 方案 要 求 你 使 用 一 个 具有 与 print 功能 类 似 的 函数 ， 其 中 一 个 就 是 
sys.stdout.write()。 男 一 个 解决 方案 是 distutils.log.warn()。 不 管 出 于 什么 原因 ， 我 们 决定 在 本 书 
的 很 多 章节 中 都 使 用 后 者 。 如 果 你 需要 无 缓冲 的 输出 ， 那 么 我 认为 sys.stderr.write0) 也 可 行 。 

“Hello World !“ 示 例如 下 所 示 。 













































































Python 2.x 
print 'Hello World!' 
Python 3.x 
print('Hello World!") 


下 面 这 行 在 两 个 版 本 下 都 能 够 工作 。 


Python 2.x & 3.x compatible 























from distutils.log import warn as printf 
printf('Hello World!') 


这 让 我 想起 了 为 什么 我 们 没有 使 用 sys.stdout write0， 因 为 我 们 将 需要 在 字符 串 未 尾 添加 
一 个 换行 符 来 匹配 行为 。 


# Python 2.x & 3.x compatible 


























import sys 
sys.stdout.write('Hello World!\n') 
真正 的 问题 不 是 这 个 小 干扰 ,但 因为 这 一 点 这 些 函 数 将 不 再 是 print 或 print0 真 正 的 代理 。 
只 有 当 你 给 出 单个 代表 你 输出 的 字符 串 时 ， 它 们 才 会 工作 。 任 何 更 复杂 的 功能 都 需要 你 更 多 
的 工作 量 。 
D.8.2 将 你 的 方法 导入 解决 方案 中 
在 其 他 情况 下 ， 生 活 更 简单 ， 你 可 以 导入 正确 的 解决 方案 。 在 后 面 的 代码 中 ， 我 们 想 导 
入 urlopen0 函 数 。 在 Python 2 中 ， 它 存在 于 urllib 和 urllib2《〈 我 们 将 使 用 后 者 ) 模块 中 。 在 


Python 3 中 ， 它 集成 到 了 urllib.request 中 。 在 这 里 ， 你 的 适用 于 版 本 2.x 和 3.x 的 解决 方案 很 
整洁 和 简单 。 


try: 




























































































































































































from urllib2 import urlopen 
except ImportError: 


from urllib.request import urlopen 
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考虑 到 内 存 保护 ， 也 许 你 会 对 一 个 如 zip0 等 知名 的 内 置 迭代 器 (Python 3) 版 本 感 兴趣 。 
在 Python 2 中 ， 和 迭代 器 版 本 是 itertools.izipü. Python 3 中 将 这 个 函数 重 命名 来 取代 zipO0。 换 
名 话说 ，itertools.izip0 蔡 换 zip0 和 它 的 名 字 。 如 果 你 坚持 这 个 迭代 器 版 本 ， 那 么 你 的 导入 语 
句 也 是 相当 简单 的 。 


try: 














from itertools import izip as zip 
except ImportError: 


pass 


个 看 起 来 不 美观 的 例子 就 是 StringIO 2$. Æ Python 2 中 ， 纯 粹 的 Python 版 本 就 是 
StringIO 模块 ， 意 味 着 你 通过 StringIO.StringIO 访问 它 。 考 虑 到 执行 速度 ， 还 有 一 个 C 语言 
版 本 ， 它 位 于 cStringIO.StringIO 中 。 根 据 Python 安装 情况 ， 你 可 能 会 更 加 喜欢 cStringIO， 
而 如 果 cStringIO 不 可 用 才 选 择 StringIO 作为 后 备 。 

在 Python 3 中 ，Unicode 是 默认 字符 串 类 型 ， 但 是 如 果 你 做 任何 类 型 的 网 络 通信 ， 那 么 
很 有 可 能 你 必须 操作 ASCII/bytes 字符 串 。 因 此 相对 于 StringIO， 你 更 加 想 要 io.BytesIO 。 为 
了 得 到 你 想 要 的 ， 下 面 这 种 导入 方式 将 有 一 点 丑陋 。 


try: 















































































































































from io import BytesIO as StringlO 
except ImportError: 
try: 





from cStringIO import StringIO 
except ImportError: 
from StringIO import StringIO 


D.8.3 整合 在 一 起 


如 果 你 够 幸运 ， 这 些 都 将 是 你 需要 做 出 的 改变 ， 而 剩 下 的 其 他 代码 会 比 开 始 时 的 设置 更 
简单 。 如 果 你 安装 了 distutils.log.warn() 《〈 类 似 printfO) url * .urlopen0、*.StringIO 的 导入 ， 
以 及 正常 导入 xmletree.ElementTree (2.5 及 更 新 版 本 )， 那 么 利用 下 面 的 约 8 行 代码 ， 你 就 可 
以 编写 一 个 很 短 的 解析 器 来 显示 谷歌 新 闻 服 务 的 头条 新 闻 。 

g = urlopen('http://news.google.com/news?topic-h&output-rss') 


f = StringIO(g.read()) 
g.close() 









































tree - xml.etree.ElementTree.parse(f) 
f.close() 
for elmt in tree.getiterator(): 
if elmt.tag == 'title' and not \ 
elmt.text.startswith('Top Stories'): 
printf('- $s' $ elmt.text) 
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无 须 修改 代码 ， 这 个 脚本 在 2.x 和 3.x 版 本 下 运行 结果 完全 相同 。 当 然 ， 如 果 你 使 用 的 是 
































版 本 2.4 及 更 早 版 本 ， 那 么 你 需要 单独 下 载 ElementTree。 














整 版 。 

















看 six 包 。 








因为 本 节 中 的 代码 片段 来 自 第 14 章 , 所 以 可 以 查看 goognewsrss.py 文件 来 了 解 实际 的 完 



































有 些 人 会 觉得 这 些 变化 真 的 开始 被 坏 Python 代码 的 优雅 性 。 毕 竟 ， 可 读 怡 
你 喜欢 保持 代码 更 整洁 , 但 仍 编写 无 须 修改 就 能 运行 于 版 本 2.x 和 3.x 上 的 代码 , 那么 可 以 查 





很 重要 。 如 果 














six 是 一 个 兼容 库 ， 它 的 主要 作用 是 提供 一 个 接口 来 保持 应 用 程序 代码 相同 ， 而 从 开发 者 的 


















































角度 隐藏 本 节 描 述 的 复杂 性 。 要 了 解 关 于 six 的 更 多 信息 ， 请 访问 http://packages.python.org/six。 
不 管 你 是 否 使 用 像 six 这 样 的 库 还 是 选择 编写 自己 的 代码 ， 我 们 都 希望 在 这 个 简短 的 叙 

















H 




































































虑 这 个 问题 ， 直 到 整个 世界 已 经 完成 了 到 下 一 代 的 过 渡 。 





D.9 结论 


我 们 知道 ， 巨 大 的 变化 正 发 生 在 下 一 代 Python 上 ， 仅 仅 因 为 版 本 3.x 的 代码 不 后 向 兼 








述 中 显示 , 完全 有 可 能 编写 能 够 运行 在 2.x 和 3.x 版 本 中 的 代码 。 底 线 是 为 了 折衷 2 到 3 的 可 
移植 性 ， 你 可 能 需要 牺牲 Python 的 一 些 优 雅 性 和 简洁 性 。 我 相信 我 们 会 在 未 来 几 年 内 重新 考 





























容 旧 版 本 。 这 种 变化 虽然 重要 ， 但 对 程序 员 来 说 不 需要 全 新 的 思维 方式 (虽然 有 明显 的 代 


























码 破坏 )。 为 了 缓解 过 渡 时 期 GP 2.x 版 本 解释 器 的 当前 和 未 来 版 本 都 将 包含 3.x 后 向 移 








植 特性 。 














Python 2.6 是 第 一 个 “ 双 模 ”解释 器 ,利用 它 你 可 以 开始 编写 针对 版 本 3.x 的 代码 库 。Python 
2.6 和 更 新 版 本 运行 2.x 所 有 版 本 的 软件 ， 并 能 够 理解 一 些 3.x 版 本 的 代码 。( 当 前 目标 是 2.7 























版 本 作为 2x 发 行 版 的 最 后 版 本 ， 为 了 找到 有 关 虚 构 的 Python 2.8 发 行 版 的 
在 http://www.python.org/dev/peps/pep-0404 上 查看 PEP 404.) 通过 这 种 方式 , 这 些 2.x 的 最 终 












































版 本 有 助 于 简化 移植 和 迁移 过 程 ， 并 降低 过 渡 到 下 一 代 Python 编 

















程 的 难 




















度 。 




















oi 


多 信息 ， 可 以 


core 


PYTHON 5 uS 


Python 核心 编程 (第 3 版 ) 


Python 是 一 种 灵活 、 可 靠 且 具有 表现 力 的 编程 语言 ， 它 将 编译 语言 的 强大 与 脚本 语言 的 简洁 性 、 快 速 开 发 特性 整合 起 
来 。 在 本 书 中 ， 资 深 Python 开 发 人 员 兼 企业 培训 师 Wesley Chun 会 帮助 您 将 Python 技 能 提升 到 更 高 的 水 平 。 
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本 书 涵盖 了 成 为 一 名 技术 全 面 的 Python 开发 人 员 所 需 的 一 切 内 容 。 本 书 讲解 了 应 用 开发 相关 的 多 个 领域 ， 而 且 书 中 的 
内 容 可 以 立即 应 用 到 项 目 开发 中 。 此 外 ， 本 书 还 包含 了 一 些 使 用 Python 2 和 Python 3 编写 的 代码 案例 ， 以 及 一 些 代码 
移植 技巧 。 有 些 代码 片段 甚至 无 须 修改 就 可 以 运行 在 Python 2.x 或 Python 3.x E « 































































































学 习 专业 的 Python 风格 、 最 佳 实践 以 及 好 的 编程 习惯 ; 
更 用 TCP、UDP、XML-RPC 来 开发 客户 端 和 服务 器 ， 并 供 高 级 的 库 ( 比如 SocketServer 和 Twisted ) 使 用 ; 
更 用 Tkinter 和 其 他 可 用 的 工具 来 开发 GUI 应 用 ; 
通过 使 用 C/C++ 编 写 扩展 ， 或 者 使 用 多 线程 来 编写 MO 密集 型 代码 ， 提 升 应 用 的 性 能 ; 
宁 究 QSL 和 关系 数据 库 、ORM， 甚 至 是 MongoDB 这 样 的 非 关 系 型 ( NonSQL ) 数据 库 ; 
关 习 Web 编 程 的 基础 知识 ， 包 括 Web 客 户 端 和 服务 器 ， 以 及 CGI 和 WSGI; 
更 用 正则 表达 式 和 强大 的 文本 处 理工 具 ， 来 创建 和 解析 CSV、JSON 和 XML 数据 ; 
更 用 COM 客 户 端 编程 与 常见 的 Microsoft Office 软 件 ( 比如 Excel、PowerPoint、Outlook ) 进行 交互 ; 
更 用 Django 框 架 深 入 了 解 Web 开 友 ， 以 及 使 用 Google App Engine 深 入 了 解 云 计算 ; 
更 用 Jython 探 索 Java 编 程 ， 以 及 在 JVM 上 运行 Python 代码 的 方式 ; 
连接 Wepb 服 务 ， 比 如 连接 Yahool Finance 获 取 股 票 行情 ， 或 者 连接 Yahool Mail、Gmail 以 及 其 他 邮件 服务 器 来 下 载 或 
发 送 邮件 ; 
e 通过 学 习 如 何 连接 Twitter 和 Google+ 网 络 来 拥抱 社交 媒体 的 热潮 。 
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